recurso engenharia e servindo
Esta página aborda os recursos de engenharia e de veiculação do espaço de trabalho que estão habilitados para Unity Catalog. Se o site workspace não estiver habilitado para Unity Catalog, consulte o espaço de trabalho recurso Store (legado).
Por que usar o site Databricks como sua loja de recursos?
Com a Databricks Data Intelligence Platform, todo o fluxo de trabalho de treinamento de modelos ocorre em uma única plataforma:
- pipeline de dados que ingerem dados brutos, criam tabelas de recursos, treinam modelos e realizam inferência de lotes. Quando o senhor treina e log um modelo usando engenharia de recurso em Unity Catalog, o modelo é empacotado com metadados de recurso. Quando o senhor usa o modelo para pontuação de lotes ou inferência on-line, ele recupera automaticamente os valores de recurso. O chamador não precisa saber sobre eles nem incluir lógica para procurar ou join recorrer para pontuar novos dados.
- Modelo e endpoint Feature Serving que estão disponíveis com um único clique e que fornecem milissegundos de latência.
- Monitoramento de dados e modelos.
Além disso, a plataforma fornece o seguinte:
- descoberta de recursos. O senhor pode navegar e pesquisar recursos na UI Databricks.
- Governança. As tabelas, funções e modelos de recurso são todos regidos pelo site Unity Catalog. Quando você treina um modelo, ele herda as permissões dos dados em que foi treinado.
- Linhagem. Quando o senhor cria uma tabela de recursos em Databricks, a fonte de dados usada para criar a tabela de recursos é salva e fica acessível. Para cada recurso em uma tabela de recursos, o senhor também pode acessar os modelos, o Notebook, o Job e o endpoint que usam o recurso.
- Acesso cruzadoworkspace. As tabelas, funções e modelos de recursos estão automaticamente disponíveis em qualquer site workspace que tenha acesso ao catálogo.
Requisitos
- Seu workspace deve estar habilitado para o Unity Catalog.
- O recurso engenharia em Unity Catalog requer Databricks Runtime 13.3 LTS ou acima.
Se o site workspace não atender a esses requisitos, consulte o espaço de trabalho recurso Store (legado) para saber como usar o espaço de trabalho legado recurso Store.
Como funciona o recurso engenharia no site Databricks?
O típico fluxo de trabalho de aprendizado de máquina usando recurso engenharia em Databricks segue esse caminho:
- Escreva um código para converter dados brutos em recurso e crie um Spark DataFrame contendo o recurso desejado.
- Crie uma tabela Delta no Unity Catalog. Qualquer tabela Delta com um key primário é automaticamente uma tabela de recurso.
- Treine e log um modelo usando a tabela de recursos. Quando o senhor faz isso, o modelo armazena as especificações do recurso usado para o treinamento. Quando o modelo é usado para inferência, ele automaticamente junta os recursos das tabelas de recursos apropriadas.
- modelo de registro em Model Registry.
Agora você pode usar o modelo para fazer previsões sobre novos dados. Para muitos casos de uso, o modelo recupera automaticamente o recurso de que precisa no Recurso Store.
Para casos de uso de tempo real de atendimento, publique o recurso em uma tabela on-line. Lojas on-line de terceiros também são suportadas. Veja lojas online de terceiros.
No momento da inferência, o modelo lê os recursos pré-computados do armazenamento on-line e os une aos dados fornecidos na solicitação do cliente para o modelo de atendimento endpoint.
começar a usar recurso engenharia - exemplo Notebook
Para começar, experimente estes exemplos do Notebook. O Notebook básico orienta o senhor sobre como criar uma tabela de recursos, usá-la para treinar um modelo e, em seguida, executar a pontuação de lotes usando a pesquisa automática de recursos. Ele também apresenta a UI do recurso engenharia e mostra como o senhor pode usá-la para pesquisar recursos e entender como os recursos são criados e usados.
Recurso básico de engenharia em Unity Catalog exemplo Notebook
O Notebook de exemplo de táxi ilustra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelos e inferência de lotes.
recurso engenharia in Unity Catalog taxi example Notebook
Tipos de dados compatíveis
O recurso engenharia em Unity Catalog e o recurso legado do espaço de trabalho Recurso Store suportam os seguintes tipos de dadosPySpark:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
, DecimalType
e MapType
são suportados em todas as versões do recurso engenharia em Unity Catalog e no espaço de trabalho recurso Store v0.3.5 ou acima.
[2] O site StructType
é compatível com o recurso engenharia v0.6.0 ou superior.
Os tipos de dados listados acima suportam tipos de recurso que são comuns em aplicativos de aprendizado de máquina. Por exemplo:
- Você pode armazenar vetores densos, tensores e incorporações como
ArrayType
. - Você pode armazenar vetores esparsos, tensores e incorporações como
MapType
. - Você pode armazenar texto como
StringType
.
Quando publicados em lojas on-line, os recursos ArrayType
e MapType
são armazenados no formato JSON.
A UI do recurso Store exibe metadados sobre os tipos de dados do recurso:
Mais informações
Para obter mais informações sobre as práticas recomendadas, acesse download The Comprehensive guia to recurso Stores.