Pular para o conteúdo principal

recurso engenharia e servindo

Esta página aborda os recursos de engenharia e de veiculação do espaço de trabalho que estão habilitados para Unity Catalog. Se o site workspace não estiver habilitado para Unity Catalog, consulte o espaço de trabalho recurso Store (legado).

Por que usar o site Databricks como sua loja de recursos?

Com a Databricks Data Intelligence Platform, todo o fluxo de trabalho de treinamento de modelos ocorre em uma única plataforma:

  • pipeline de dados que ingerem dados brutos, criam tabelas de recursos, treinam modelos e realizam inferência de lotes. Quando o senhor treina e log um modelo usando engenharia de recurso em Unity Catalog, o modelo é empacotado com metadados de recurso. Quando o senhor usa o modelo para pontuação de lotes ou inferência on-line, ele recupera automaticamente os valores de recurso. O chamador não precisa saber sobre eles nem incluir lógica para procurar ou join recorrer para pontuar novos dados.
  • Modelo e endpoint Feature Serving que estão disponíveis com um único clique e que fornecem milissegundos de latência.
  • Monitoramento de dados e modelos.

Além disso, a plataforma fornece o seguinte:

  • descoberta de recursos. O senhor pode navegar e pesquisar recursos na UI Databricks.
  • Governança. As tabelas, funções e modelos de recurso são todos regidos pelo site Unity Catalog. Quando você treina um modelo, ele herda as permissões dos dados em que foi treinado.
  • Linhagem. Quando o senhor cria uma tabela de recursos em Databricks, a fonte de dados usada para criar a tabela de recursos é salva e fica acessível. Para cada recurso em uma tabela de recursos, o senhor também pode acessar os modelos, o Notebook, o Job e o endpoint que usam o recurso.
  • Acesso cruzadoworkspace. As tabelas, funções e modelos de recursos estão automaticamente disponíveis em qualquer site workspace que tenha acesso ao catálogo.

Requisitos

  • Seu workspace deve estar habilitado para o Unity Catalog.
  • O recurso engenharia em Unity Catalog requer Databricks Runtime 13.3 LTS ou acima.

Se o site workspace não atender a esses requisitos, consulte o espaço de trabalho recurso Store (legado) para saber como usar o espaço de trabalho legado recurso Store.

Como funciona o recurso engenharia no site Databricks?

O típico fluxo de trabalho de aprendizado de máquina usando recurso engenharia em Databricks segue esse caminho:

  1. Escreva um código para converter dados brutos em recurso e crie um Spark DataFrame contendo o recurso desejado.
  2. Crie uma tabela Delta no Unity Catalog. Qualquer tabela Delta com um key primário é automaticamente uma tabela de recurso.
  3. Treine e log um modelo usando a tabela de recursos. Quando o senhor faz isso, o modelo armazena as especificações do recurso usado para o treinamento. Quando o modelo é usado para inferência, ele automaticamente junta os recursos das tabelas de recursos apropriadas.
  4. modelo de registro em Model Registry.

Agora você pode usar o modelo para fazer previsões sobre novos dados. O modelo recupera automaticamente o recurso necessário do recurso Store.

Recurso Store fluxo de trabalho para muitos casos de uso de aprendizado de máquina.

começar a usar recurso engenharia - exemplo Notebook

Para começar, experimente estes exemplos do Notebook. O Notebook básico orienta o senhor sobre como criar uma tabela de recursos, usá-la para treinar um modelo e, em seguida, executar a pontuação de lotes usando a pesquisa automática de recursos. Ele também apresenta a UI do recurso engenharia e mostra como o senhor pode usá-la para pesquisar recursos e entender como os recursos são criados e usados.

Recurso básico de engenharia em Unity Catalog exemplo Notebook

Open notebook in new tab

O Notebook de exemplo de táxi ilustra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelos e inferência de lotes.

recurso engenharia in Unity Catalog taxi example Notebook

Open notebook in new tab

Tipos de dados compatíveis

O recurso engenharia em Unity Catalog e o recurso legado do espaço de trabalho Recurso Store suportam os seguintes tipos de dadosPySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalType e MapType são suportados em todas as versões do recurso engenharia em Unity Catalog e no espaço de trabalho recurso Store v0.3.5 ou acima. [2] O site StructType é compatível com o recurso engenharia v0.6.0 ou superior.

Os tipos de dados listados acima suportam tipos de recurso que são comuns em aplicativos de aprendizado de máquina. Por exemplo:

  • Você pode armazenar vetores densos, tensores e incorporações como ArrayType.
  • Você pode armazenar vetores esparsos, tensores e incorporações como MapType.
  • Você pode armazenar texto como StringType.

Quando publicados em lojas on-line, os recursos ArrayType e MapType são armazenados no formato JSON.

A UI do recurso Store exibe metadados sobre os tipos de dados do recurso:

Exemplo de tipos de dados complexos

Mais informações

Para obter mais informações sobre as práticas recomendadas, acesse download The Comprehensive guia to recurso Stores.