Pular para o conteúdo principal

Use o pipeline declarativo LakeFlow com o legado Hive metastore

Este artigo detalha as configurações e advertências específicas do pipeline LakeFlow Declarative configurado para publicar dados no site legado Hive metastore. Databricks recomenda o uso do site Unity Catalog para todos os novos pipelines. Consulte Usar Unity Catalog com o pipeline declarativo LakeFlow.

nota

Este artigo discute a funcionalidade do modo de publicação atual do default para pipeline. O pipeline criado antes de 5 de fevereiro de 2025 pode usar o modo de publicação herdado e o esquema virtual LIVE. Consulte esquema LIVE (legado).

Como consultar tabelas de transmissão e visualizações materializadas no legado Hive metastore

Após a conclusão da atualização, o senhor pode acessar view o esquema e as tabelas, consultar os dados ou usar os dados em aplicativos downstream.

Depois de publicadas, as tabelas do pipeline LakeFlow Declarative podem ser consultadas em qualquer ambiente com acesso ao esquema de destino. Isso inclui Databricks SQL, Notebook e outros LakeFlow Declarative pipeline.

important

Quando você cria uma configuração target, somente tabelas e metadados associados são publicados. não são publicadas no metastore.

Configurar um pipeline para publicar no Hive metastore

Ao criar um novo pipeline, o senhor pode especificar Hive metastore nas opções de armazenamento para publicar no site legado Hive metastore. O senhor deve especificar um esquema de destino default ao publicar em Hive metastore. Consulte Configurar LakeFlow Declarative pipeline.

Especifique um local de armazenamento

O senhor pode especificar um local de armazenamento para um pipeline que é publicado no site Hive metastore. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para os dados gravados pelo pipeline. Databricks Recomenda-se sempre especificar um local de armazenamento para evitar gravar no site DBFS root.

Como todas as tabelas, dados, pontos de verificação e metadados do LakeFlow Declarative pipeline são totalmente gerenciados pelo LakeFlow Declarative pipeline, a maior parte da interação com o conjunto de dados do LakeFlow Declarative pipeline ocorre por meio de tabelas registradas no Hive metastore ou Unity Catalog.

Configuração de armazenamento em nuvem

Para acessar um bucket em Google Cloud Storage (GCS), o senhor deve criar um serviço account com acesso a esse bucket GCS e adicionar esse serviço account às configurações de clustering. Para obter mais informações sobre como criar um serviço do Google Cloud account, consulte Conectar-se a Google Cloud Storage. O senhor pode adicionar a configuração do serviço account ao criar ou editar um pipeline com o pipeline declarativo LakeFlow API ou na interface do usuário do pipeline declarativo LakeFlow:

  1. Na página de detalhes do pipeline do seu pipeline, clique no botão Settings (Configurações ). A página de configurações do pipeline é exibida.
  2. Clique no botão JSON .
  3. Digite a configuração do serviço account no campo gcp_attributes.google_service_account na configuração de clustering:
JSON
{
"clusters": [
{
"gcp_attributes": {
"google_service_account": "test-gcs-doc@databricks-dev.iam.gserviceaccount.com"
}
}
]
}

Trabalhe com o evento log para o pipeline Hive metastore

Se o seu pipeline publica tabelas no Hive metastore, o evento log é armazenado em /system/events no local storage. Por exemplo, se o senhor tiver configurado o pipeline storage como /Users/username/data, o log de eventos será armazenado no caminho /Users/username/data/system/events do DBFS.

Se o senhor não tiver definido a configuração storage, o local do evento default log será /pipelines/<pipeline-id>/system/events em DBFS. Por exemplo, se o ID do seu pipeline for 91de5e48-35ed-11ec-8d3d-0242ac130003, o local de armazenamento será /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

O senhor pode criar um view para simplificar a consulta do evento log. O exemplo a seguir cria um view temporário chamado event_log_raw. Esse view é usado no exemplo de consultas do evento log incluídas neste artigo:

SQL
CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Substitua <event-log-path> pelo local do evento log.

Cada instância de uma execução de pipeline é chamada de atualização . O senhor geralmente deseja extrair informações para a atualização mais recente. Execute a consulta a seguir para encontrar o identificador da atualização mais recente e salve-o na pasta temporária latest_update_id view. Esse view é usado no exemplo de consultas do evento log incluídas neste artigo:

SQL
CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

O senhor pode consultar o evento log in em um notebook Databricks ou no editorSQL. Use um Notebook ou o editor SQL para executar o evento de exemplo log queries.

Exemplo pipeline código-fonte Notebook para o espaço de trabalho sem Unity Catalog

O senhor pode importar o seguinte Notebook para um Databricks workspace sem o Unity Catalog ativado e usá-lo para implantar o pipeline declarativo LakeFlow. Importe o Notebook do idioma escolhido e especifique o caminho no campo Código-fonte ao configurar um pipeline com a opção de armazenamento Hive metastore opção de armazenamento. Consulte Configurar LakeFlow Declarative pipeline.

Comece a trabalhar com LakeFlow Pipeline declarativo Python Notebook

Open notebook in new tab

Comece a trabalhar com LakeFlow Pipeline declarativo SQL Notebook

Open notebook in new tab