Pular para o conteúdo principal

Dados de serviço lakehouse

Sincronize uma tabela Unity Catalog com o Postgres e consulte-a juntamente com seus dados operacionais.

Os passos:Criar dados analíticos → ② Sincronizar com o Lakebase → ③ Encontrar seus dados no Postgres → ④ Consultar em ambos os ambientes

nota

Este é um guia de início rápido. Para obter a documentação completa, consulte Sincronizar tabelas.

Antes de começar

  • Certifique-se de ter concluído a etapa Obter um banco de dados Postgres. Você precisa de um projeto Lakebase com dados de exemplo.
  • Um SQL warehouse ou Notebook para consultas Unity Catalog .
  • Utilize os comandos USE_SCHEMA e CREATE_TABLE no esquema onde você criará a tabela sincronizada.

o passo 1: Criar dados analíticos no Unity Catalog

Imagine que sua equipe de dados criou pontuações de segmentação de usuários no lakehouse. Em produção, isso seria uma tabela ouro, resultado de ML ou dataset enriquecido. Para este guia, você criará uma pequena amostra.

Em um SQL warehouse ou Notebook, execução:

SQL
CREATE TABLE main.default.user_segments AS
SELECT * FROM VALUES
(1, 'power_user', 0.92),
(2, 'casual', 0.35),
(3, 'power_user', 0.88)
AS segments(user_id, segment, engagement_score);

Observe que os valores user_id correspondem à coluna id na sua tabela playing_with_lakebase de get-começar. Isso é intencional. Você se join a eles no passo 4.

Saiba mais: Tipos de origem suportados

o passo 2: Sincronizar a tabela com Lakebase

No Explorador de Catálogo, navegue até sua tabela user_segments e crie uma tabela sincronizada a partir dela. Escolha o banco de dados databricks_postgres do seu projeto Lakebase como destino e Snapshot como modo de sincronização. O recurso Snapshot copia os dados uma única vez, sendo essa a opção mais simples para começar.

A sincronização é executada automaticamente. Quando o processo for concluído, uma nova tabela somente leitura aparecerá no seu banco de dados Lakebase. O nome do esquema do Unity Catalog torna-se o nome do esquema do Postgres e o nome da tabela recebe um sufixo _synced : default.user_segments_synced.

Saiba mais: Criar uma tabela sincronizada (procedimento completo) | Modos de sincronização

o passo 3: Encontre seus dados no Postgres

Mude para o Editor SQL do Lakebase. Os dados analíticos do Unity Catalog agora podem ser consultados com SQL padrão do Postgres. Procure o usuário 1:

SQL
SELECT * FROM "default".user_segments_synced WHERE user_id = 1;
nota

default Deve ser colocado entre aspas porque é uma palavra-chave reservada do PostgreSQL. O esquema da tabela sincronizada herda o nome do esquema Unity Catalog , portanto, se o seu esquema for nomeado default, você deve sempre colocá-lo entre aspas nas consultas.

Você deverá ver o usuário 1 com o segmento power_user e uma pontuação de engajamento de 0.92. Esta é a mesma linha que você criou no Unity Catalog, agora disponível no Postgres com leituras de baixa latência.

Saiba mais: Mapeamento de tipos de dados

o passo 4: Consulta em ambos os mundos

Eis a recompensa. Sua tabela playing_with_lakebase contém dados operacionais. Sua tabela user_segments_synced tem análise lakehouse . Junte-se a eles:

SQL
SELECT
p.id,
p.name,
p.value,
s.segment,
s.engagement_score
FROM playing_with_lakebase p
JOIN "default".user_segments_synced s ON p.id = s.user_id;

Sua aplicação agora pode servir enriquecer dados. Uma única consulta ao Postgres combina o que o aplicativo sabe (nomes, valores) com o que o lakehouse calcula (segmentos, pontuações). Sem chamadas API para o lakehouse, sem scripts de sincronização, sem penalidade de latência.

Saiba mais: Planejamento de capacidade

Próximos passos