Pular para o conteúdo principal

Usar o pipeline DLT com o legado Hive metastore

Este artigo detalha as configurações e advertências específicas do pipeline DLT configurado para publicar dados no site legado Hive metastore. Databricks recomenda o uso do site Unity Catalog para todos os novos pipelines. Consulte Usar Unity Catalog com seu pipeline DLT.

nota

Este artigo discute a funcionalidade do modo de publicação atual do default para pipeline. O pipeline criado antes de 5 de fevereiro de 2025 pode usar o modo de publicação herdado e o esquema virtual LIVE. Consulte esquema LIVE (legado).

Como consultar tabelas de transmissão e visualizações materializadas no legado Hive metastore

Após a conclusão da atualização, o senhor pode acessar view o esquema e as tabelas, consultar os dados ou usar os dados em aplicativos downstream.

Depois de publicadas, as tabelas DLT podem ser consultadas em qualquer ambiente com acesso ao esquema de destino. Isso inclui Databricks SQL, Notebook e outros pipelines DLT.

important

Quando você cria uma configuração target, somente tabelas e metadados associados são publicados. não são publicadas no metastore.

Configurar um pipeline para publicar no Hive metastore

Ao criar um novo pipeline, o senhor pode especificar Hive metastore nas opções de armazenamento para publicar no site legado Hive metastore. O senhor deve especificar um esquema de destino default ao publicar em Hive metastore. Consulte Configurar um pipeline DLT.

Especifique um local de armazenamento

O senhor pode especificar um local de armazenamento para um pipeline que é publicado no site Hive metastore. A principal motivação para especificar um local é controlar o local de armazenamento de objetos para os dados gravados pelo pipeline. Databricks Recomenda-se sempre especificar um local de armazenamento para evitar gravar no site DBFS root.

Como todas as tabelas, dados, pontos de verificação e metadados do pipeline DLT são totalmente gerenciados pela DLT, a maior parte da interação com o conjunto de dados DLT ocorre por meio de tabelas registradas em Hive metastore ou Unity Catalog.

Configuração de armazenamento em nuvem

O senhor usa o perfil da instância AWS para configurar o acesso ao armazenamentoS3 em AWS. Para adicionar um instance profile na interface do usuário do DLT quando o senhor cria ou edita um pipeline:

  1. Na página de detalhes do pipeline do seu pipeline, clique no botão Settings (Configurações ).
  2. No menu suspenso do perfil da instância Na seção de computação das configurações do pipeline, selecione um instance profile.

Para configurar um AWS instance profile editando as configurações JSON do seu cluster pipeline, clique no botão JSON e insira a configuração instance profile no campo aws_attributes.instance_profile_arn na configuração de clustering:

JSON
{
"clusters": [
{
"aws_attributes": {
"instance_profile_arn": "arn:aws:..."
}
}
]
}

O senhor também pode configurar o perfil da instância ao criar uma política de cluster para seu pipeline DLT. Para ver um exemplo, consulte a base de conhecimento.

Trabalhe com o evento log para o pipeline Hive metastore

Se o seu pipeline publica tabelas no Hive metastore, o evento log é armazenado em /system/events no local storage. Por exemplo, se o senhor tiver configurado o pipeline storage como /Users/username/data, o log de eventos será armazenado no caminho /Users/username/data/system/events do DBFS.

Se o senhor não tiver definido a configuração storage, o local do evento default log será /pipelines/<pipeline-id>/system/events em DBFS. Por exemplo, se o ID do seu pipeline for 91de5e48-35ed-11ec-8d3d-0242ac130003, o local de armazenamento será /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

O senhor pode criar um view para simplificar a consulta do evento log. O exemplo a seguir cria um view temporário chamado event_log_raw. Esse view é usado no exemplo de consultas do evento log incluídas neste artigo:

SQL
CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Substitua <event-log-path> pelo local do evento log.

Cada instância de uma execução de pipeline é chamada de atualização . O senhor geralmente deseja extrair informações para a atualização mais recente. Execute a consulta a seguir para encontrar o identificador da atualização mais recente e salve-o na pasta temporária latest_update_id view. Esse view é usado no exemplo de consultas do evento log incluídas neste artigo:

SQL
CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

O senhor pode consultar o evento log in em um notebook Databricks ou no editorSQL. Use um Notebook ou o editor SQL para executar o evento de exemplo log queries.

Exemplo pipeline código-fonte Notebook para o espaço de trabalho sem Unity Catalog

O senhor pode importar o seguinte Notebook para um Databricks workspace sem o Unity Catalog habilitado e usá-lo para implantar um DLT pipeline. Importe o Notebook do idioma escolhido e especifique o caminho no campo Código-fonte ao configurar um pipeline com a opção de armazenamento Hive metastore opção de armazenamento. Consulte Configurar um pipeline DLT.

Comece a usar o notebook DLT Python

Open notebook in new tab

Comece a usar o notebook DLT SQL

Open notebook in new tab