recurso engenharia e servindo
Esta página aborda os recursos de engenharia e de serviço do espaço de trabalho que estão habilitados para Unity Catalog. Se o site workspace não estiver habilitado para Unity Catalog, consulte o espaço de trabalho recurso Store (legado).
Por que usar o Databricks como seu repositório de recursos?
Com a Databricks Data Intelligence Platform, todo o fluxo de trabalho de treinamento de modelos ocorre em uma única plataforma:
pipeline de dados que ingere dados brutos, cria tabelas de recursos, ensina modelos e realiza inferência de lotes. Quando o senhor ensina e log um modelo usando engenharia de recurso em Unity Catalog, o modelo é empacotado com metadados de recurso. Quando o senhor usa o modelo para pontuação de lotes ou inferência on-line, ele recupera automaticamente os valores de recurso. O chamador não precisa saber sobre eles nem incluir lógica para procurar ou join recorrer para pontuar novos dados.
Modelo e endpoint Feature Serving que estão disponíveis com um único clique e que fornecem milissegundos de latência.
Monitoramento de dados e modelos.
Além disso, a plataforma oferece o seguinte:
descoberta de recursos. O senhor pode navegar e pesquisar recursos na UI Databricks.
Governança. As tabelas, funções e modelos de recurso são todos regidos pelo site Unity Catalog. Quando o senhor ensina um modelo, ele herda as permissões dos dados em que foi treinado.
Linhagem. Quando você cria uma tabela de recursos no Databricks, a fonte de dados usada para criar a tabela de recursos é salva e acessível. Para cada recurso em uma tabela de recursos, você também pode acessar os modelos, Notebook, Job e endpoint que usam o recurso.
Acesso cruzadoworkspace. As tabelas, funções e modelos de recursos estão automaticamente disponíveis em qualquer site workspace que tenha acesso ao catálogo.
Requisitos
Seu site workspace deve estar habilitado para Unity Catalog.
O recurso engenharia em Unity Catalog requer Databricks Runtime 13.3 LTS ou acima.
Se o site workspace não atender a esses requisitos, consulte o espaço de trabalho recurso Store (legado) para saber como usar o espaço de trabalho legado recurso Store.
Como funciona o recurso engenharia no site Databricks?
O típico machine learning fluxo de trabalho usando recurso engenharia em Databricks segue esse caminho:
Escreva código para converter dados brutos em recursos e crie um Spark DataFrame contendo os recursos desejados.
Crie uma tabela Delta no Unity Catalog. Qualquer tabela Delta com um key primário é automaticamente uma tabela de recurso.
Ensinar e log um modelo usando a tabela de recursos. Quando o senhor faz isso, o modelo armazena as especificações do recurso usado para o treinamento. Quando o modelo é usado para inferência, ele automaticamente junta recurso das tabelas de recurso apropriadas.
modelo de registro em Model Registry.
Agora o senhor pode usar o modelo para fazer previsões sobre novos dados. Para muitos casos de uso, o modelo recupera automaticamente o recurso necessário do repositório de recursos.
Para casos de uso de tempo real de atendimento, publique o recurso em uma tabela on-line. Também há suporte para lojas on-line de terceiros. Consulte Lojas on-line de terceiros.
No momento da inferência, o modelo lê recursos de pré-compute do armazenamento online e os join aos dados fornecidos na solicitação do cliente ao endpoint do modelo de operação.
começar a usar recurso engenharia - exemplo Notebook
Para começar, experimente estes exemplos do Notebook. O site básico Notebook mostra aos senhores como criar uma tabela de recursos, usá-la para ensinar um modelo e, em seguida, realizar a pontuação de lotes usando a pesquisa automática de recursos. Ele também apresenta a UI do recurso engenharia e mostra como o senhor pode usá-la para pesquisar recursos e entender como os recursos são criados e usados.
O exemplo de táxi Notebook ilustra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelos e inferência de lotes.
Tipos de dados compatíveis
O recurso engenharia em Unity Catalog e o recurso legado do espaço de trabalho Recurso Store suportam os seguintes tipos de dadosPySpark:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
, DecimalType
e MapType
são suportados em todas as versões do recurso engenharia em Unity Catalog e em workspace repositório de recursos v0.3.5 ou superior. [2] StructType
é compatível com o recurso engenharia v0.6.0 ou superior.
Os tipos de dados listados acima suportam tipos de recursos comuns em aplicativos machine learning . Por exemplo:
Você pode armazenar vetores densos, tensores e embeddings como
ArrayType
.Você pode armazenar vetores, tensores e embeddings esparsos como
MapType
.Você pode armazenar texto como
StringType
.
Quando publicados em lojas online, os recursos ArrayType
e MapType
são armazenados no formato JSON.
A UI do repositório de recursos exibe metadados sobre tipos de dados de recursos:
Mais informações
Para obter mais informações sobre as práticas recomendadas, acesse download The Comprehensive guia to repositório de recursos.