Databricks Recurso Store
Esta página é uma visão geral dos recursos disponíveis quando o senhor usa o Databricks recurso Store com Unity Catalog.
O Databricks recurso Store fornece um registro central para os recursos usados nos modelos AI e ML. As tabelas e os modelos de recurso são registrados em Unity Catalog, fornecendo governança integrada, linhagem e compartilhamento e descoberta de recurso entreworkspace. Com a Databricks, todo o fluxo de trabalho de treinamento de modelos ocorre em uma única plataforma, incluindo:
- pipeline de dados que ingerem dados brutos, criam tabelas de recursos, treinam modelos e realizam inferência de lotes.
- Modelo e endpoint Feature Serving que estão disponíveis com um único clique e que fornecem milissegundos de latência.
- Monitoramento de dados e modelos.
Quando o senhor usa recursos do armazenamento de recursos para treinar modelos, o modelo rastreia automaticamente a linhagem dos recursos que foram usados no treinamento. No momento da inferência, o modelo procura automaticamente os valores de recurso mais recentes. O armazenamento de recurso também oferece computação sob demanda de recurso para aplicativos reais de tempo. O recurso store lida com toda a tarefa de computação do recurso. Isso elimina a distorção de treinamento/serviço, garantindo que os cálculos de recurso usados na inferência sejam os mesmos usados durante o treinamento do modelo. Isso também simplifica significativamente o código do lado do cliente, pois todas as pesquisas e cálculos de recurso são tratados pelo armazenamento de recurso.
Esta página aborda os recursos de engenharia e de veiculação do espaço de trabalho que estão habilitados para Unity Catalog. Se o site workspace não estiver habilitado para Unity Catalog, consulte o espaço de trabalho recurso Store (legado).
Visão geral conceitual
Para obter uma visão geral do funcionamento do Databricks recurso Store e um glossário de termos, consulte Conceitos.
recurso engenharia
Recurso | Descrição |
---|---|
Criar e trabalhar com tabelas de recursos. |
Descubra e compartilhe recursos
Recurso | Descrição |
---|---|
Explore e gerencie tabelas de recurso usando o Catalog Explorer e a UI de recurso. | |
Use o par simples key-value para categorizar e gerenciar suas tabelas de recursos e recursos. |
Usar recurso no treinamento fluxo de trabalho
Recurso | Descrição |
---|---|
Usar recurso para treinar modelos. | |
Use a correção point-in-time para criar um treinamento dataset que reflita os valores do recurso no momento em que uma observação de rótulo foi registrada. | |
Referência da API do Python |
Servir recurso
Recurso | Descrição |
---|---|
Fornece dados de recurso para aplicativos on-line e tempo real modelo do aprendizado de máquina. Desenvolvido pelo Databricks Lakebase. | |
Busca automática de valores de recurso em um armazenamento on-line. | |
Servir de recurso para modelos e aplicativos fora do site Databricks. | |
Calcular valores de recurso no momento da inferência. |
recurso governança e linhagem
Recurso | Descrição |
---|---|
Use Unity Catalog para controlar o acesso a tabelas de recurso e view a linhagem de uma tabela, modelo ou função de recurso. |
tutorial
Tutorial | Descrição |
---|---|
Caderno básico . Mostra como criar uma tabela de recursos, usá-la para treinar um modelo e executar lotes de pontuação usando a pesquisa automática de recursos. Também mostra a UI do recurso engenharia para pesquisar o recurso e view lineage. Exemplo de táxi Notebook . Mostra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelos e inferência de lotes. | |
Exemplo: implantado e consultar o site Feature Serving endpoint | Tutorial e exemplo de Notebook mostrando como implantar e consultar um Feature Serving endpoint. |
Tutorial que mostra como usar as tabelas on-line Databricks e o ponto de extremidade Feature Serving para aplicativos de geração aumentada de recuperação (RAG). |
Requisitos
- Seu workspace deve estar habilitado para o Unity Catalog.
- O recurso engenharia em Unity Catalog requer Databricks Runtime 13.3 LTS ou acima.
Se o site workspace não atender a esses requisitos, consulte o espaço de trabalho recurso Store (legado) para saber como usar o espaço de trabalho legado recurso Store.
Tipos de dados compatíveis
O recurso engenharia em Unity Catalog e o recurso legado do espaço de trabalho Recurso Store suportam os seguintes tipos de dadosPySpark:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
, DecimalType
e MapType
são suportados em todas as versões do recurso engenharia em Unity Catalog e no espaço de trabalho recurso Store v0.3.5 ou acima.
[2] O site StructType
é compatível com o recurso engenharia v0.6.0 ou superior.
Os tipos de dados listados acima suportam tipos de recurso que são comuns em aplicativos de aprendizado de máquina. Por exemplo:
- Você pode armazenar vetores densos, tensores e incorporações como
ArrayType
. - Você pode armazenar vetores esparsos, tensores e incorporações como
MapType
. - Você pode armazenar texto como
StringType
.
Quando publicados em lojas on-line, os recursos ArrayType
e MapType
são armazenados no formato JSON.
A UI do recurso Store exibe metadados sobre os tipos de dados do recurso:
Mais informações
Para obter mais informações sobre as práticas recomendadas, acesse download The Comprehensive guia to recurso Stores.