Pular para o conteúdo principal

recurso engenharia e servindo

Esta página aborda os recursos de engenharia e de veiculação do espaço de trabalho que estão habilitados para Unity Catalog. Se o site workspace não estiver habilitado para Unity Catalog, consulte o espaço de trabalho recurso Store (legado).

Por que usar o site Databricks como sua loja de recursos?

Com a Databricks Data Intelligence Platform, todo o fluxo de trabalho de treinamento de modelos ocorre em uma única plataforma:

  • pipeline de dados que ingerem dados brutos, criam tabelas de recursos, treinam modelos e realizam inferência de lotes. Quando o senhor treina e log um modelo usando engenharia de recurso em Unity Catalog, o modelo é empacotado com metadados de recurso. Quando o senhor usa o modelo para pontuação de lotes ou inferência on-line, ele recupera automaticamente os valores de recurso. O chamador não precisa saber sobre eles nem incluir lógica para procurar ou join recorrer para pontuar novos dados.
  • Modelo e endpoint Feature Serving que estão disponíveis com um único clique e que fornecem milissegundos de latência.
  • Monitoramento de dados e modelos.

Além disso, a plataforma fornece o seguinte:

  • descoberta de recursos. O senhor pode navegar e pesquisar recursos na UI Databricks.
  • Governança. As tabelas, funções e modelos de recurso são todos regidos pelo site Unity Catalog. Quando você treina um modelo, ele herda as permissões dos dados em que foi treinado.
  • Linhagem. Quando o senhor cria uma tabela de recursos em Databricks, a fonte de dados usada para criar a tabela de recursos é salva e fica acessível. Para cada recurso em uma tabela de recursos, o senhor também pode acessar os modelos, o Notebook, o Job e o endpoint que usam o recurso.
  • Acesso cruzadoworkspace. As tabelas, funções e modelos de recursos estão automaticamente disponíveis em qualquer site workspace que tenha acesso ao catálogo.

Requisitos

  • Seu workspace deve estar habilitado para o Unity Catalog.
  • O recurso engenharia em Unity Catalog requer Databricks Runtime 13.3 LTS ou acima.

Se o site workspace não atender a esses requisitos, consulte o espaço de trabalho recurso Store (legado) para saber como usar o espaço de trabalho legado recurso Store.

Como funciona o recurso engenharia no site Databricks?

O típico fluxo de trabalho de aprendizado de máquina usando recurso engenharia em Databricks segue esse caminho:

  1. Escreva um código para converter dados brutos em recurso e crie um Spark DataFrame contendo o recurso desejado.
  2. Crie uma tabela Delta no Unity Catalog. Qualquer tabela Delta com um key primário é automaticamente uma tabela de recurso.
  3. Treine e log um modelo usando a tabela de recursos. Quando o senhor faz isso, o modelo armazena as especificações do recurso usado para o treinamento. Quando o modelo é usado para inferência, ele automaticamente junta os recursos das tabelas de recursos apropriadas.
  4. modelo de registro em Model Registry.

Agora você pode usar o modelo para fazer previsões sobre novos dados. Para muitos casos de uso, o modelo recupera automaticamente o recurso de que precisa no Recurso Store.

Recurso Store fluxo de trabalho para muitos casos de uso de aprendizado de máquina.

Para casos de uso de tempo real de atendimento, publique o recurso em uma tabela on-line. Lojas on-line de terceiros também são suportadas. Veja lojas online de terceiros.

No momento da inferência, o modelo lê os recursos pré-computados do armazenamento on-line e os une aos dados fornecidos na solicitação do cliente para o modelo de atendimento endpoint.

Recurso Fluxo de armazenamento para o modelo de aprendizado de máquina que é servido.

começar a usar recurso engenharia - exemplo Notebook

Para começar, experimente estes exemplos do Notebook. O Notebook básico orienta o senhor sobre como criar uma tabela de recursos, usá-la para treinar um modelo e, em seguida, executar a pontuação de lotes usando a pesquisa automática de recursos. Ele também apresenta a UI do recurso engenharia e mostra como o senhor pode usá-la para pesquisar recursos e entender como os recursos são criados e usados.

Recurso básico de engenharia em Unity Catalog exemplo Notebook

Open notebook in new tab

O Notebook de exemplo de táxi ilustra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelos e inferência de lotes.

recurso engenharia in Unity Catalog taxi example Notebook

Open notebook in new tab

Tipos de dados compatíveis

O recurso engenharia em Unity Catalog e o recurso legado do espaço de trabalho Recurso Store suportam os seguintes tipos de dadosPySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalType e MapType são suportados em todas as versões do recurso engenharia em Unity Catalog e no espaço de trabalho recurso Store v0.3.5 ou acima. [2] O site StructType é compatível com o recurso engenharia v0.6.0 ou superior.

Os tipos de dados listados acima suportam tipos de recurso que são comuns em aplicativos de aprendizado de máquina. Por exemplo:

  • Você pode armazenar vetores densos, tensores e incorporações como ArrayType.
  • Você pode armazenar vetores esparsos, tensores e incorporações como MapType.
  • Você pode armazenar texto como StringType.

Quando publicados em lojas on-line, os recursos ArrayType e MapType são armazenados no formato JSON.

A UI do recurso Store exibe metadados sobre os tipos de dados do recurso:

Exemplo de tipos de dados complexos

Mais informações

Para obter mais informações sobre as práticas recomendadas, acesse download The Comprehensive guia to recurso Stores.