Configurar o pipeline declarativo LakeFlow

Este artigo descreve a configuração básica do pipeline declarativo LakeFlow usando a UI workspace.

Databricks recomenda o desenvolvimento de um novo pipeline usando o site serverless. Para obter instruções de configuração para o pipeline serverless, consulte Configurar um serverless pipeline .

As instruções de configuração neste artigo usam o endereço Unity Catalog. Para obter instruções sobre como configurar o pipeline com o legado Hive metastore, consulte Use LakeFlow Declarative pipeline with legacy Hive metastore.

Este artigo discute a funcionalidade do modo de publicação atual do default para pipeline. O pipeline criado antes de 5 de fevereiro de 2025 pode usar o modo de publicação herdado e o esquema virtual LIVE. Consulte esquema LIVE (legado).

nota

A interface do usuário tem uma opção para exibir e editar configurações em JSON. O senhor pode definir a maioria das configurações com a interface do usuário ou com uma especificação JSON. Algumas opções avançadas só estão disponíveis usando a configuração JSON.

JSON Os arquivos de configuração também são úteis ao implantar o pipeline em novos ambientes ou ao usar o CLI ou o REST API.

Para obter uma referência completa às definições de configuração do LakeFlow Declarative pipeline JSON, consulte LakeFlow Declarative pipeline configurations.

Configurar um novo pipeline

Para configurar um novo pipeline, faça o seguinte:

Em seu site workspace, clique em Jobs & pipeline na barra lateral.
Em New (Novo ), clique em ETL pipeline .
Forneça um nome exclusivo para o pipeline.
(Opcional) Use o seletor de arquivos para configurar os arquivos do Notebook e workspace como código-fonte .
- Se o senhor não adicionar nenhum código-fonte, será criado um novo Notebook para o site pipeline. O Notebook é criado em um novo diretório no seu diretório de usuário, e um link para acessar esse Notebook é mostrado no campo Código-fonte no painel de detalhes do pipeline após a criação do pipeline.
  - O senhor pode acessar esse Notebook com o URL apresentado no campo Código-fonte no painel de detalhes do pipeline depois de criar seu pipeline.
- Use o botão Add source code (Adicionar código-fonte ) para adicionar código-fonte ativo adicional.
Selecione Unity Catalog em Storage options (Opções de armazenamento) .
Selecione um catálogo . Essa configuração controla o catálogo default e o local de armazenamento dos metadados do pipeline.
Selecione um esquema no catálogo. Pelo site default, as tabelas de transmissão e a visualização materializada definidas no site pipeline são criadas nesse esquema.
Na seção de computação , marq ue a caixa ao lado de Use Photon Acceleration (Usar aceleração ). Para considerações adicionais sobre a configuração do site compute, consulte opções de configuração de computação.
Clique em Criar .

Essas configurações recomendadas criam um novo pipeline configurado para execução no modo Triggered e usam o canal Current . Essa configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e teste, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre como programar o pipeline, consulte a tarefa pipeline para o Job.

opções de configuração de computação

Databricks recomenda sempre usar a escala automática aprimorada . Os valores padrão para outras configurações do compute funcionam bem para muitos pipelines.

O pipeline sem servidor remove as opções de configuração do compute. Para obter instruções de configuração para o pipeline serverless, consulte Configurar um serverless pipeline .

Use as seguintes configurações para personalizar as configurações do site compute:

Os administradores do workspace podem configurar uma política de cluster . As políticas de computação permitem que os administradores controlem quais opções compute estão disponíveis para os usuários. Consulte Selecionar uma política de cluster.
Opcionalmente, o senhor pode configurar o modo de clustering para execução com tamanho fixo ou escala automática legada . Consulte Otimizar a utilização de clustering do pipeline LakeFlow Declarative com autoscale.
Para cargas de trabalho com a autoescala ativada, defina Trabalhador mínimo e Trabalhador máximo para definir limites para comportamentos de escalonamento. Consulte Configurar compute para LakeFlow Declarative pipeline.
Opcionalmente, o senhor pode desativar a aceleração do Photon. Veja o que é Photon?.
Selecione um perfil de instância se o seu pipeline usar um instance profile para controlar o acesso ao serviço de nuvem. Consulte Configuração de armazenamento em nuvem.
Use a tag de cluster para ajudar a monitorar os custos associados ao pipeline declarativo LakeFlow. Consulte Configurar tag de cluster.
Configure Instance types para especificar o tipo de máquinas virtuais usadas para executar seu pipeline. Consulte Selecionar tipos de instância para executar a pipeline.
- Selecione um tipo de trabalhador otimizado para as cargas de trabalho configuradas em seu site pipeline.
- Opcionalmente, o senhor pode selecionar um tipo de driver diferente do seu tipo worker. Isso pode ser útil para reduzir os custos no pipeline com grandes tipos de worker e baixa utilização do driver compute ou para escolher um tipo de driver maior para evitar problemas de falta de memória em cargas de trabalho com muitos trabalhadores pequenos.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para o pipeline:

A edição Advanced produto lhe dá acesso a todos os LakeFlow Declarative pipeline recurso. Opcionalmente, o senhor pode executar o pipeline usando as edições Pro ou Core do produto. Consulte Escolher uma edição do produto.
O senhor pode optar por usar o modo Contínuo pipeline ao executar o pipeline na produção. Consulte Modo de pipeline acionado vs. contínuo.
Se o seu workspace não estiver configurado para Unity Catalog ou se sua carga de trabalho precisar usar o legado Hive metastore, consulte Use LakeFlow Declarative pipeline with legacy Hive metastore.
Adicionar notificações para atualizações do site email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.
Use o campo Configuration para definir o valor keypara o pipeline. Essas configurações têm duas finalidades:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com LakeFlow Declarative pipeline.
- Configurar as definições do pipeline e as configurações do Spark. Consulte LakeFlow Referência de propriedades do pipeline declarativo.
- Configurar tags . As tags são par key-value para o pipeline que são visíveis na lista de fluxo de trabalho. As tags de pipeline não estão associadas ao faturamento.
Use o canal Preview para testar seu pipeline em relação às alterações pendentes no tempo de execução do pipeline LakeFlow Declarative e testar novos recursos.

Escolha uma edição do produto

Selecione a edição do produto LakeFlow Declarative pipeline com o melhor recurso para seus requisitos pipeline. As seguintes edições do produto estão disponíveis:

Core para execução, transmissão e ingestão de cargas de trabalho. Selecione a edição Core se o seu pipeline não exigir recursos avançados, como a captura de dados de alterações (CDC) (CDC) ou LakeFlow Declarative pipeline expectations.
Pro para execução, transmissão, ingestão e CDC cargas de trabalho. A edição Pro produto oferece suporte a todos os recursos Core, além de suporte a cargas de trabalho que exigem a atualização de tabelas com base em alterações nos dados de origem.
Advanced para execução transmissão ingest cargas de trabalho, CDC cargas de trabalho e cargas de trabalho que exigem expectativas. A edição do produto Advanced suporta o recurso das edições Core e Pro e inclui restrições de qualidade de dados com as expectativas do pipeline declarativo LakeFlow.

O senhor pode selecionar a edição do produto ao criar ou editar um pipeline. O senhor pode escolher uma edição diferente para cada pipeline. Consulte a página do produtoLakeFlow Declarative pipeline.

Observação: se o site pipeline incluir recursos não compatíveis com a edição do produto selecionada, como expectativas, o senhor receberá uma mensagem de erro explicando o motivo do erro. O senhor pode então editar o pipeline para selecionar a edição apropriada.

Configurar o código-fonte

O senhor pode usar o seletor de arquivos na interface do usuário do pipeline declarativo LakeFlow para configurar o código-fonte que define seu pipeline. O código-fonte do pipeline é definido no Databricks Notebook ou nos scripts SQL ou Python armazenados nos arquivos workspace. Ao criar ou editar o site pipeline, o senhor pode adicionar um ou mais arquivos Notebook ou workspace ou uma combinação de arquivos Notebook e workspace.

Como o pipeline LakeFlow Declarative analisa automaticamente as dependências do dataset para construir o gráfico de processamento do seu pipeline, o senhor pode adicionar o código-fonte ativo em qualquer ordem.

O senhor pode modificar o arquivo JSON para incluir o código-fonte do pipeline declarativo LakeFlow definido em SQL e os scripts Python armazenados nos arquivos workspace. O exemplo a seguir inclui os arquivos Notebook e workspace:

JSON
{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

gerenciar dependências externas para pipelines que usam Python

LakeFlow O pipeline declarativo suporta o uso de dependências externas em seu pipeline, como Python pacote e biblioteca. Para saber mais sobre as opções e recomendações para o uso de dependências, consulte gerenciar Python dependencies for LakeFlow Declarative pipeline.

Use os módulos do Python armazenados em seu Databricks workspace

Além de implementar seu código Python no Databricks Notebook, o senhor pode usar Databricks Git Folders ou workspace files para armazenar seu código como módulos Python. Armazenar seu código como módulos do Python é especialmente útil quando o senhor tem uma funcionalidade comum que deseja usar em vários pipelines ou Notebooks no mesmo pipeline. Para saber como usar os módulos Python com o seu pipeline, consulte Importar módulos Python de pastas Git ou arquivos workspace.

Configurar um novo pipeline​

opções de configuração de computação​

Outras considerações de configuração​

Escolha uma edição do produto​

Configurar o código-fonte​

gerenciar dependências externas para pipelines que usam Python​

Use os módulos do Python armazenados em seu Databricks workspace​