Databricks Lojas de recursos on-line

Databricks Online repositório de recursos é uma solução de alto desempenho e escalável para servir dados de recursos para aplicações online e modelo de machine learning em tempo real. Com tecnologia Databricks Lakebase, o repositório de recursos online oferece acesso de baixa latência aos dados de recursos em alta escala, mantendo a consistência com suas tabelas de recursos offline.

Os principais casos de uso do repositório de recursos on-line incluem:

Servir recurso para aplicativos reais de tempo, como sistemas de recomendação, detecção de fraude e mecanismos de personalização usando o endpoint Feature Serving.
Pesquisa automática de recurso para inferência de tempo real no endpoint do modelo servindo.

Novos repositórios de recursos online agora são criados como projetos de escala automática Lakebase. Para obter detalhes e diferenças, consulte Unificação do Lakebase no autoscale.

Requisitos

Databricks O recurso on-line Stores requer Databricks Runtime 16.4 LTS ML ou acima. O senhor também pode usar serverless compute.

Para usar o Databricks Online recurso Stores, o senhor deve primeiro instalar o pacote. As seguintes linhas de código devem ser executadas sempre que um Notebook for executado:

Python
%pip install databricks-feature-engineering>=0.13.0
dbutils.library.restartPython()

Crie um armazenamento online

Quando você cria um armazenamento online, você provisiona uma infraestrutura gerenciada altamente disponível para Feature Serving em tempo real. A API create_online_store cria uma instância do Lakebase Autoscaling. Para obter detalhes sobre o Lakebase Autoscaling, consulte Lakebase Postgres.

Para gerenciar custos, exclua os armazenamentos online do Lakebase provisionamento quando não estiverem em uso para desenvolvimento e testes.

Para criar uma nova loja on-line de recursos:

Python
from databricks.feature_engineering import FeatureEngineeringClient

# Initialize the client
fe = FeatureEngineeringClient()

# Create an online store with specified capacity
fe.create_online_store(
    name="my-online-store", # maximum of 63 bytes
    capacity="CU_2"  # Valid options: "CU_1", "CU_2", "CU_4", "CU_8"
)

A configuração capacity controla a quantidade compute que seu armazenamento online pode usar. Seu valor se refere à capacidade de provisionamento Lakebase , conforme descrito em tamanho de computação.

Para obter informações sobre permissões para instâncias de escalonamento automático do Lakebase, consulte Conceder permissões de projeto.

Para obter informações sobre as opções de capacidade para instâncias de provisionamento Lakebase, consulte gerenciar capacidade de instância.

Criptografia com chave de gerenciamento do cliente

O armazenamento online de recursos suporta criptografia em repouso com uma key de gerenciamento do cliente (CMK) devido ao suporte subjacente do autoscale Lakebase . Não é necessária nenhuma configuração Lakebase ou Feature Store ; a CMK é aplicada automaticamente ao espaço de trabalho relevante.

A CMK é aplicada automaticamente quando todas as seguintes condições forem verdadeiras:

O workspace possui uma key gerenciada pelo cliente configurada para serviço gerenciado. Consulte Chave gerenciada pelo cliente para Lakebase.
O repositório de recursos online é apoiado por um projeto de escala automática Lakebase . Todos os repositórios de recursos on-line criados com fe.create_online_store após 23 de março de 2026 usam escalonamento automático Lakebase .
O projeto de suporte Lakebase foi criado depois que o suporte ao CMK ficou disponível em sua região. Os projetos Lakebase criados anteriormente não são criptografados com uma CMK, mesmo que o workspace posteriormente habilite uma.

O projeto Lakebase que apoia um repositório de recursos online tem o mesmo nome do armazenamento online. Para encontrá-lo, clique em Use o seletor de aplicativos no canto superior direito da sua workspace para abrir o aplicativo Lakebase e localizar o projeto com esse nome. Para confirmar se o armazenamento está criptografado com sua CMK, verifique o cartão de status da chave de gerenciamento do cliente nesse projeto. Consulte Verificar o estado da criptografia.

gerenciar lojas on-line

O código a seguir mostra como recuperar lojas online:

Python
# List all accessible online stores
stores = fe.list_online_stores()
for store in stores:
    print(f"Store: {store.name}, State: {store.state}, Capacity: {store.capacity}")

# Get information about an existing online store
store = fe.get_online_store(name="my-online-store")
if store:
    print(f"Store: {store.name}, State: {store.state}, Capacity: {store.capacity}")

Se você criou um armazenamento online usando fe.create_online_store, você pode atualizá-lo usando fe.update_online_store:

Python
# Update the capacity of an online store
# Note: this does not work for an Autoscaling instance that was created using the projects API or the UI
updated_store = fe.update_online_store(
    name="my-online-store",
    capacity="CU_4"  # Upgrade to higher capacity
)

Adicionar réplicas de leitura a um armazenamento online

Ao criar ou atualizar um repositório de recursos online, você pode adicionar réplicas de leitura ao armazenamento online especificando o parâmetro read_replica_count . O tráfego de leitura é distribuído automaticamente entre as réplicas de leitura, reduzindo a latência e melhorando o desempenho e a escalabilidade para cargas de trabalho de alta simultaneidade.

Não é possível adicionar réplicas de leitura a um projeto de escalonamento automático do Lakebase que foi criado usando a API ou a interface do usuário.

Publicar uma tabela de recursos em um armazenamento on-line

Após o armazenamento online estar no estado DISPONÍVEL , você pode publicar tabelas de recursos para torná-las disponíveis para acesso de baixa latência. A API publish_table sincroniza dados da sua tabela de recursos offline para o armazenamento online criado usando API create_online_store . Confira a tabela abaixo para garantir que sua tabela de origem offline foi criada corretamente para o caso de uso em tempo real.

Caso de uso	Criar a tabela de recurso off-line usando este método
Somente os valores de recurso mais recentes para cada ID de entidade estão disponíveis no armazenamento on-line para aplicativos reais de tempo. Várias linhas com o mesmo valor primário key mas com valores de série temporal diferentes key podem existir na fonte de dados off-line e serão deduplicadas na publicação pipeline. Esse caso é usado com mais frequência para modelo on-line ou endpoint Feature Serving.	Crie uma tabela com designação de série temporal
Os valores de recurso mais recentes e de todas as séries temporais anteriores da tabela off-line estão disponíveis no armazenamento on-line para acesso por aplicativos reais de tempo. Todas as linhas da tabela de origem (offline) são publicadas sem desduplicação. Este recurso é usado com pouca frequência, mas pode ser necessário quando se consulta um recurso no endpoint por ID da entidade e data/hora exata para verificação de dados ou backtesting. Para usar uma coluna `DATE` ou `TIMESTAMP` como uma key de pesquisa simples (sem semântica de séries temporais), altere o tipo da coluna para `STRING`.	Crie uma tabela com designação de série temporal

Caso de uso

Criar a tabela de recurso off-line usando este método

Somente os valores de recurso mais recentes para cada ID de entidade estão disponíveis no armazenamento on-line para aplicativos reais de tempo. Várias linhas com o mesmo valor primário key mas com valores de série temporal diferentes key podem existir na fonte de dados off-line e serão deduplicadas na publicação pipeline.

Esse caso é usado com mais frequência para modelo on-line ou endpoint Feature Serving.

Crie uma tabela com designação de série temporal

Os valores de recurso mais recentes e de todas as séries temporais anteriores da tabela off-line estão disponíveis no armazenamento on-line para acesso por aplicativos reais de tempo.

Todas as linhas da tabela de origem (offline) são publicadas sem desduplicação. Este recurso é usado com pouca frequência, mas pode ser necessário quando se consulta um recurso no endpoint por ID da entidade e data/hora exata para verificação de dados ou backtesting. Para usar uma coluna DATE ou TIMESTAMP como uma key de pesquisa simples (sem semântica de séries temporais), altere o tipo da coluna para STRING.

Crie uma tabela com designação de série temporal

Caso de uso	Criar a tabela de recurso off-line usando este método
Somente os valores de recurso mais recentes para cada ID de entidade estão disponíveis no armazenamento on-line para aplicativos reais de tempo. Várias linhas com o mesmo valor primário key mas com valores de série temporal diferentes key podem existir na fonte de dados off-line e serão deduplicadas na publicação pipeline. Esse caso é usado com mais frequência para modelo on-line ou endpoint Feature Serving.	Crie uma tabela com designação de série temporal
Os valores de recurso mais recentes e de todas as séries temporais anteriores da tabela off-line estão disponíveis no armazenamento on-line para acesso por aplicativos reais de tempo. Todas as linhas da tabela de origem (offline) são publicadas sem desduplicação. Este recurso é usado com pouca frequência, mas pode ser necessário quando se consulta um recurso no endpoint por ID da entidade e data/hora exata para verificação de dados ou backtesting. Para usar uma coluna `DATE` ou `TIMESTAMP` como uma key de pesquisa simples (sem semântica de séries temporais), altere o tipo da coluna para `STRING`.	Crie uma tabela com designação de série temporal

Caso de uso

Criar a tabela de recurso off-line usando este método

Esse caso é usado com mais frequência para modelo on-line ou endpoint Feature Serving.

Crie uma tabela com designação de série temporal

Os valores de recurso mais recentes e de todas as séries temporais anteriores da tabela off-line estão disponíveis no armazenamento on-line para acesso por aplicativos reais de tempo.

Crie uma tabela com designação de série temporal

Pré-requisitos para publicação em lojas on-line

Todas as tabelas de recursos (com ou sem séries temporais) devem atender a esses requisitos antes de serem publicadas:

Restrição primária do site key: Necessário para a publicação on-line do armazenamento
Chave primária não nula : As colunas key primárias não podem conter valores NULL
Feed de Dados de Alteração Ativado : necessário para os modos de publicação CONTINUOUS e TRIGGERED. Consulte Usar o feed de dados de alterações para saber como habilitar o Feed de Dados de Alterações da Tabela Delta, e Modos de publicação para uma discussão sobre os modos de publicação.

SQL
-- Enable CDF if not already enabled
ALTER TABLE catalog.schema.your_feature_table
SET TBLPROPERTIES ('delta.enableChangeDataFeed' = 'true');

-- Ensure primary key columns are not nullable
ALTER TABLE catalog.schema.your_feature_table
ALTER COLUMN user_id SET NOT NULL;

Publicar uma tabela de recursos

Para publicar uma tabela de recursos em um armazenamento on-line:

Python
from databricks.ml_features.entities.online_store import DatabricksOnlineStore

# Get the online store instance
# For Lakebase Autoscaling projects creating using the Lakebase API or UI,
# `name` is the last part of the resouce name: projects/{online_store_name}
online_store = fe.get_online_store(name="my-online-store")

# Publish the feature table to the online store
fe.publish_table(
    online_store=online_store,
    source_table_name="catalog_name.schema_name.feature_table_name",
    # for online_table_name, the catalog name, schema name, and table name each are limited to a maximum of 63 bytes
    online_table_name="catalog_name.schema_name.online_feature_table_name",
    # `publish_mode` argument is optional and defaults to "TRIGGERED" mode if not specified
)

O site publish_table operações faz o seguinte:

Criar uma tabela no armazenamento on-line, caso ela não exista.
Sincronizar os dados do recurso da tabela de recurso off-line com o armazenamento on-line.
Configurar a infraestrutura necessária para manter o armazenamento on-line em sincronia com a tabela off-line.

publish_table Sempre utiliza a ramificação default do projeto de escalonamento automático do Lakebase.

Modos de publicação

O parâmetro publish_mode determina como e quando a tabela online é atualizada com as alterações da tabela de recursos offline.

Consulte modos de sincronização explicados para obter todos os detalhes sobre os modos compatíveis.

Os modos compatíveis são resumidos abaixo:

Mode	Descrição
`TRIGGERED`	padrão. Atualiza incrementalmente a tabela online com as alterações da tabela offline usando a API ou um programa. Opções para acionar a sincronização de dados periodicamente: Crie um Notebook que execute `publish_table`. Crie uma LakeFlow Job que execute este Notebook para atualizar incrementalmente o recurso online. Consulte a tarefaNotebook para o trabalho. atualizações programáticas para o pipeline com id do objeto retornado de `publish_table`. Consulte execução de uma atualização pipeline. Este modo requer que o Feed de Dados de Alteração esteja ativado na tabela offline. Consulte os pré-requisitos para publicação em lojas online.
`CONTINUOUS`	A tabela online está configurada com um pipeline de transmissão para atualizar imediatamente o armazenamento online à medida que novos dados são gravados na tabela de recursos offline.
`SNAPSHOT`	Executa uma sincronização única que copia todos os dados da tabela de origem para o armazenamento online. Este modo é eficiente quando há um grande número de atualizações em linhas existentes entre duas operações de sincronização.

Mode

Descrição

TRIGGERED

padrão. Atualiza incrementalmente a tabela online com as alterações da tabela offline usando a API ou um programa. Opções para acionar a sincronização de dados periodicamente:

Crie um Notebook que execute publish_table. Crie uma LakeFlow Job que execute este Notebook para atualizar incrementalmente o recurso online. Consulte a tarefaNotebook para o trabalho.
atualizações programáticas para o pipeline com id do objeto retornado de publish_table. Consulte execução de uma atualização pipeline.

Este modo requer que o Feed de Dados de Alteração esteja ativado na tabela offline. Consulte os pré-requisitos para publicação em lojas online.

CONTINUOUS

A tabela online está configurada com um pipeline de transmissão para atualizar imediatamente o armazenamento online à medida que novos dados são gravados na tabela de recursos offline.

SNAPSHOT

Executa uma sincronização única que copia todos os dados da tabela de origem para o armazenamento online. Este modo é eficiente quando há um grande número de atualizações em linhas existentes entre duas operações de sincronização.

Mode	Descrição
`TRIGGERED`	padrão. Atualiza incrementalmente a tabela online com as alterações da tabela offline usando a API ou um programa. Opções para acionar a sincronização de dados periodicamente: Crie um Notebook que execute `publish_table`. Crie uma LakeFlow Job que execute este Notebook para atualizar incrementalmente o recurso online. Consulte a tarefaNotebook para o trabalho. atualizações programáticas para o pipeline com id do objeto retornado de `publish_table`. Consulte execução de uma atualização pipeline. Este modo requer que o Feed de Dados de Alteração esteja ativado na tabela offline. Consulte os pré-requisitos para publicação em lojas online.
`CONTINUOUS`	A tabela online está configurada com um pipeline de transmissão para atualizar imediatamente o armazenamento online à medida que novos dados são gravados na tabela de recursos offline.
`SNAPSHOT`	Executa uma sincronização única que copia todos os dados da tabela de origem para o armazenamento online. Este modo é eficiente quando há um grande número de atualizações em linhas existentes entre duas operações de sincronização.

Mode

Descrição

TRIGGERED

padrão. Atualiza incrementalmente a tabela online com as alterações da tabela offline usando a API ou um programa. Opções para acionar a sincronização de dados periodicamente:

Crie um Notebook que execute publish_table. Crie uma LakeFlow Job que execute este Notebook para atualizar incrementalmente o recurso online. Consulte a tarefaNotebook para o trabalho.
atualizações programáticas para o pipeline com id do objeto retornado de publish_table. Consulte execução de uma atualização pipeline.

Este modo requer que o Feed de Dados de Alteração esteja ativado na tabela offline. Consulte os pré-requisitos para publicação em lojas online.

CONTINUOUS

A tabela online está configurada com um pipeline de transmissão para atualizar imediatamente o armazenamento online à medida que novos dados são gravados na tabela de recursos offline.

SNAPSHOT

O parâmetro publish_mode substitui o parâmetro streaming a partir da versão v0.13.0.1 e anteriores. Para compatibilidade com versões anteriores, se streaming=True for passado, é equivalente a definir publish_mode="CONTINUOUS".

Excluir uma tabela online

Para excluir uma tabela online, use o SDK do Databricks:

Python
from databricks.sdk import WorkspaceClient

w = WorkspaceClient()
w.feature_store.delete_online_table(online_table_name="catalog_name.schema_name.online_feature_table_name")

importante

Este é o único método recomendado para excluir uma tabela online. Isso remove a tabela tanto do Unity Catalog quanto do banco de dados. Outros métodos, como o comando Databricks SQL DROP TABLE ou o comando SDK Python para excluir uma tabela sincronizada, não excluem a tabela do armazenamento do banco de dados subjacente.

Explorar e consultar recursos on-line

Depois que o status da tabela publicada for exibido como "AVAILABLE", o senhor poderá explorar e consultar os dados do recurso de várias maneiras:

Unity Catalog IU : Navegue até a tabela on-line em Unity Catalog para view dados de amostra e explore o esquema diretamente na UI. Isso proporciona uma maneira conveniente de inspecionar os dados do recurso e verificar se o processo de publicação foi concluído com êxito.

SQL Editor : Para consultas e exploração de dados mais avançadas, você pode usar o editor SQL para executar consultas PostgreSQL em suas tabelas de recursos online. Isto permite realizar queries complexas, joins e análise em seus dados de recurso. Para instruções detalhadas sobre o uso do editor SQL com lojas online, consulte Query do Editor SQL do Lakebase.

Usar o recurso online em aplicativos reais de tempo

Para servir recurso a aplicativos e serviços reais de tempo, crie um Feature Serving endpoint. Consulte Feature Serving endpoint.

Os modelos que são treinados usando o recurso de Databricks rastreiam automaticamente a linhagem do recurso em que foram treinados. Quando implantados como endpoint, esses modelos usam o site Unity Catalog para encontrar o recurso apropriado em lojas on-line. Para obter detalhes, consulte Usar recurso no fluxo de trabalho on-line.

Excluir um armazenamento on-line

Para excluir um armazenamento on-line:

Python
fe.delete_online_store(name="my-online-store")

nota

A exclusão de uma tabela publicada on-line pode levar a falhas inesperadas nas dependências posteriores. Antes de excluir uma tabela, o senhor deve garantir que seus recursos on-line não sejam mais usados pelo modelo de serviço ou pelo endpoint Feature Serving.

Melhores práticas para otimização de custos

Reutilize armazenamentos online : Você pode publicar várias tabelas de recursos em um único armazenamento online. Para cenários de desenvolvimento, teste e treinamento, recomendamos compartilhar um único armazenamento online entre vários projetos ou usuários, em vez de criar armazenamentos separados.
Dimensionar a capacidade corretamente : comece com a CU_2 para testes e aumente ou diminua a capacidade somente com base no desempenho e no custo.
Exclua lojas online que não estão em uso : Lojas online geram custos continuamente. Exclua lojas online que não sejam mais necessárias.

Limitações

Não é possível especificar uma tabela online específica. Quando uma tabela de recursos é publicada em várias tabelas online, o modelo de serviço e o endpoint Feature Serving sempre resolvem para a tabela online mais antiga com base no carimbo de data/hora de criação.
Um repositório de recursos online suporta até 3 réplicas de leitura (4 instâncias compute no total, incluindo a primária). As réplicas de leitura descarregam o tráfego de leitura do servidor primário e proporcionam alta disponibilidade, assumindo o controle caso o servidor primário falhe.
Os parâmetros a seguir não são compatíveis com a publicação em uma loja de recursos on-line Databricks: filter_condition, checkpoint_location, mode, trigger, e features.
Somente tabelas de recurso em Unity Catalog são compatíveis.
O único modo de publicação compatível é "merge".
A função de escala para zero do Lakebase não é suportada.
Endpoints de Feature Serving e Model Serving que buscam recursos de vários repositórios de recursos online continuam funcionando se já existirem, mas você não pode criar novos endpoints como este em instâncias de Autoscaling do Lakebase.
As instâncias de dimensionamento automático criadas usando a API de projetos ou a interface do usuário não usam os seguintes campos: creator, read_replica_count e capacity.
Não é possível atualizar uma instância de dimensionamento automático que foi criada usando a API de projetos ou a interface do usuário.
A chave de gerenciamento de clientes (CMK) aplica-se apenas a repositórios de recursos online criados após a disponibilização da CMK na região. Consulte Criptografia com chave gerenciada pelo cliente.

Solução de problemas

Mensagem de erro: Skipping publishing to online table '...' because the feature sync pipeline is already running.

Esse erro ocorre se vários Notebooks ou Jobs tentarem publicar em uma tabela online ao mesmo tempo. Para evitar conflitos de dados, é permitida apenas uma única operação de sincronização por tabela online de cada vez.

Databricks recomenda projetar seu fluxo de trabalho para usar um único comando publish_table , por exemplo, uma única tarefa no final de um trabalho. Se o seu fluxo de trabalho não puder ser coordenado desta forma, use get_status() para esperar até que outros comandos de publicação tenham terminado de sincronizar antes de acionar uma nova publicação.

Exemplo de notebook

O Notebook a seguir apresenta um exemplo de como configurar e acessar uma Loja de Recursos Online Databricks utilizando um Lakebase Databricks.

Loja online de recursos com o Lakebase Notebook

Abrir notebook em uma nova aba Open in Databricks

Recurso adicional

Saiba mais sobre o recurso engenharia em Databricks.
Explore a governança de dados e a linhagem em Unity Catalog.
Entenda a arquitetura e os recursos do Lakebase.

Requisitos​

Crie um armazenamento online​

Criptografia com chave de gerenciamento do cliente​

gerenciar lojas on-line​

Adicionar réplicas de leitura a um armazenamento online​

Publicar uma tabela de recursos em um armazenamento on-line​

Pré-requisitos para publicação em lojas on-line​

Publicar uma tabela de recursos​

Modos de publicação​

Excluir uma tabela online​

Explorar e consultar recursos on-line​

Usar o recurso online em aplicativos reais de tempo​

Excluir um armazenamento on-line​

Melhores práticas para otimização de custos​

Limitações​

Solução de problemas​

Exemplo de notebook​

Loja online de recursos com o Lakebase Notebook

Recurso adicional​

Requisitos

Crie um armazenamento online

Criptografia com chave de gerenciamento do cliente

gerenciar lojas on-line

Adicionar réplicas de leitura a um armazenamento online

Publicar uma tabela de recursos em um armazenamento on-line

Pré-requisitos para publicação em lojas on-line

Publicar uma tabela de recursos

Modos de publicação

Excluir uma tabela online

Explorar e consultar recursos on-line

Usar o recurso online em aplicativos reais de tempo

Excluir um armazenamento on-line

Melhores práticas para otimização de custos

Limitações

Solução de problemas

Exemplo de notebook

Recurso adicional