Pular para o conteúdo principal

Crie o pipeline declarativo LakeFlow com dlt-meta

Este artigo apresenta o dlt-meta, um projeto doDatabricks Labs que fornece ferramentas para gerar LakeFlow Declarative pipeline a partir de metadados que o senhor mantém.

nota

O projeto código aberto dlt-meta, como todos os projetos do databrickslabs GitHub account, existe apenas para fins de exploração. Databricks não oferece suporte ou acordo de nível de serviço (SLAs) para ele. Não envie tíquetes de suporte da Databricks para problemas relacionados a esse projeto. Em vez disso, registre um problema no GitHub, que será analisado assim que o tempo permitir.

O que é dlt-meta?

LakeFlow O pipeline declarativo permite que o senhor especifique uma tabela de forma declarativa e gere um fluxo em pipeline que cria a tabela e a mantém atualizada à medida que os dados de origem são alterados. No entanto, se a sua organização tiver centenas de tabelas, gerar e gerenciar esse pipeline consome tempo e pode levar a práticas inconsistentes.

O projeto dlt-meta é uma estrutura de metaprogramação orientada por metadados projetada para funcionar com o pipeline LakeFlow Declarative. Essa estrutura permite a automação do pipeline de dados bronze e prata, aproveitando os metadados registrados em um conjunto de arquivos JSON e YAML. O mecanismo dlt-meta usa o código Python para gerar dinamicamente o código do pipeline declarativo LakeFlow para os fluxos descritos em seus metadados. O senhor gera os metadados sobre o seu pipeline e o dlt-meta gera o pipeline.

Com sua lógica centralizada em um só lugar (os metadados), seu sistema é mais rápido, reutilizável e fácil de manter.

Benefícios do dlt-meta

Há dois casos de uso principais para dlt-meta:

  • Ingira e limpe um grande número de mesas de forma simples.
  • Aplicar padrões de engenharia de dados em vários pipelines e usuários.

Os benefícios de usar uma abordagem baseada em metadados incluem:

  • A manutenção de metadados pode ser feita sem conhecimento de código Python ou SQL.
  • A manutenção dos metadados, em vez do código, exige menos sobrecarga e reduz os erros.
  • O código é gerado pelo dlt-meta, portanto, ele permanece consistente e tem menos código personalizado no pipeline e nas tabelas publicadas.
  • O senhor pode facilmente agrupar tabelas em pipeline dentro dos metadados, gerando o número de pipeline necessário para atualizar seus dados com mais eficiência.

Como isso funciona?

A imagem a seguir mostra uma visão geral do sistema dlt-meta:

visão geral do dlt-meta

  1. Você cria os arquivos de metadados como entrada para dlt-meta, para especificar seus arquivos de origem e saídas, regras de qualidade e processamento necessário.
  2. O mecanismo dlt-meta compila os arquivos de integração em uma especificação de fluxo de dados, chamada DataflowSpec , e os armazena para uso posterior.
  3. O mecanismo dlt-meta usa o DataflowSpec para criar um pipeline que gera suas tabelas de bronze. Isso usa seus arquivos de metadados para ler os dados de origem e aplicar as expectativas de dados corretas para atender às suas regras de qualidade.
  4. Em seguida, o mecanismo dlt-meta usa o DataflowSpec para criar pipelines adicionais que geram suas silver tables. Isso usa seus arquivos de metadados para aplicar as transformações apropriadas e outros processamentos ao seu sistema.

O senhor executa o pipeline gerado pelo dlt-meta para manter a saída atualizada à medida que os dados de origem são atualizados.

Como faço para começar?

Para usar o dlt-meta, você deve:

  • implantado e configurar as soluções dlt-meta.
  • Prepare os metadados para suas tabelas de camadas de bronze e prata.
  • Crie um trabalho para integrar os metadados.
  • Use os metadados para criar pipeline para suas tabelas.

A documentação do dlt-meta em GitHub tem um tutorial para ajudar o senhor a começar com esse processo. Para obter mais informações, consulte getting começar with dlt-meta em GitHub.

Recurso adicional