Configurar o pipeline declarativo LakeFlow
Este artigo descreve a configuração básica do pipeline declarativo LakeFlow usando a interface do usuário workspace .
Databricks recomenda desenvolver um novo pipeline usando serverless. Para obter instruções de configuração para pipeline serverless , consulte Configurar um pipeline serverless.
As instruções de configuração neste artigo usam Unity Catalog. Para obter instruções sobre como configurar o pipeline com Hive metastore legado, consulte Usar o pipeline declarativo LakeFlow com Hive metastorelegado.
Este artigo discute a funcionalidade do modo de publicação default atual para pipeline. o pipeline criado antes de 5 de fevereiro de 2025 pode usar o modo de publicação legado e o esquema virtual LIVE . Veja o esquema LIVE (legado).
A interface do usuário tem uma opção para exibir e editar configurações em JSON. Você pode configurar a maioria das configurações com a interface do usuário ou uma especificação JSON. Algumas opções avançadas só estão disponíveis usando a configuração JSON.
Arquivos de configuração JSON também são úteis ao implantar pipelines para novos ambientes ou usar a CLI ou APIREST.
Para obter uma referência completa às configurações JSON do pipeline declarativo LakeFlow , consulte Configurações do pipeline declarativoLakeFlow.
Configurar um novo pipeline
Para configurar um novo pipeline, faça o seguinte:
- 
Na parte superior da barra lateral, clique em Novo e então selecione pipelineETL . 
- 
Na parte superior, dê um nome exclusivo ao seu pipeline. 
- 
Abaixo do nome, você pode ver o catálogo e o esquema default que foram escolhidos para você. Altere-as para dar ao seu pipeline um padrão diferente. O catálogo default e o esquema default são onde os conjuntos de dados são lidos ou gravados quando você não qualifica o conjunto de dados com um catálogo ou esquema no seu código. Consulte Objetos de banco de dados em Databricks para obter mais informações. 
- 
Selecione sua opção preferida para criar um pipeline: - comece com código de exemplo em SQL para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em SQL.
- comece com código de exemplo em Python para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em Python.
- começar com uma única transformação para criar um novo pipeline e estrutura de pastas, com um novo arquivo de código em branco.
- Adicione um ativo existente para criar um pipeline que você pode associar a arquivos de código existentes no seu workspace.
- Crie um projeto controlado por origem para criar um pipeline com um novo projeto Databricks ativo Bundles ou para adicionar o pipeline a um pacote existente.
 Você pode ter arquivos de código-fonte SQL e Python em seu pipeline ETL. Ao criar um novo pipeline e escolher um idioma para o código de exemplo, o idioma será apenas para o código de exemplo incluído no seu pipeline por default. 
- 
Ao fazer sua seleção, você será redirecionado para o pipeline recém-criado. O pipeline ETL é criado com as seguintes configurações default : - Unity Catalog
- Canal atual
- computação sem servidor
- Modo de desenvolvimento desativado. Esta configuração afeta apenas a execução agendada do pipeline. Executar o pipeline a partir do editor sempre usa o modo de desenvolvimento por padrão.
 Esta configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e testes, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre o pipeline de programação, consulte pipeline tarefa para Job. Você pode ajustar essas configurações na barra de ferramentas do pipeline. 
Como alternativa, você pode criar um pipeline ETL no navegador workspace :
- Clique em área de trabalho no painel lateral esquerdo.
- Selecione qualquer pasta, incluindo pastas do Git.
- Clique em Criar no canto superior direito e clique em pipelineETL .
Você também pode criar um pipeline ETL na página Trabalho e pipeline:
- No seu workspace, clique em Empregos e pipeline na barra lateral. 
- Em Novo , clique em PipelineETL .
opções de configuração de computação
Databricks recomenda sempre usar o dimensionamento automático aprimorado . valores padrão para outras configurações compute funcionam bem para muitos pipelines.
pipeline sem servidor remove opções de configuração compute . Para obter instruções de configuração para pipeline serverless , consulte Configurar um pipeline serverless.
Use as seguintes configurações para personalizar as configurações compute :
- 
os administradores do espaço de trabalho podem configurar uma política de cluster . As políticas de computação permitem que os administradores controlem quais opções compute estão disponíveis para os usuários. Consulte Selecionar uma política compute. 
- 
Opcionalmente, você pode configurar o modo de cluster para execução com tamanho fixo ou dimensionamento automático legado . Consulte Otimizar a utilização cluster do pipeline declarativo LakeFlow com dimensionamento automático. 
- 
Para cargas de trabalho com dimensionamento automático habilitado, defina Min worker e Max worker para definir limites para comportamentos de dimensionamento. Consulte Configurar compute clássica para o pipeline declarativo LakeFlow. 
- 
Opcionalmente, você pode desativar a aceleração Photon . Veja O que é Photon?. 
- 
Selecione um perfil de instância se o seu pipeline usar um instance profile para controlar o acesso ao serviço cloud . Veja configuração de armazenamento em nuvem. 
- 
Use o Cluster Tag para ajudar a monitorar os custos associados ao pipeline declarativo LakeFlow . Consulte Configurar tags compute. 
- 
Configure os tipos de instância para especificar o tipo de máquinas virtuais usadas para executar seu pipeline. Veja Selecionar tipos de instância para executar um pipeline. - Selecione um tipo de trabalhador otimizado para as cargas de trabalho configuradas no seu pipeline.
- Opcionalmente, você pode selecionar um tipo de motorista diferente do seu tipo worker . Isso pode ser útil para reduzir custos em pipelines com grandes tipos worker e baixa utilização compute do driver ou para escolher um tipo de driver maior para evitar problemas de falta de memória em cargas de trabalho com muitos trabalhadores pequenos.
 
Defina o usuário execução-as
O usuário execução-as permite que você altere a identidade que um pipeline usa para execução e a propriedade das tabelas que ele cria ou atualiza. Isso é útil em situações em que o usuário original que criou o pipeline foi desativado, por exemplo, se ele saiu da empresa. Nesses casos, o pipeline pode parar de funcionar e as tabelas publicadas podem ficar inacessíveis para outras pessoas. Ao atualizar o pipeline para execução como uma identidade diferente — como uma entidade de serviço — e reatribuir a propriedade das tabelas publicadas, você pode restaurar o acesso e garantir que o pipeline continue funcionando. Executar pipelines como entidades de serviço é considerado uma prática recomendada porque eles não estão vinculados a usuários individuais, o que os torna mais seguros, estáveis e confiáveis para cargas de trabalho automatizadas.
Permissões necessárias
Para o usuário que está fazendo a alteração:
- Permissões CAN_MANAGE no pipeline
- Função CAN_USE na entidade de serviço (se estiver configurando execução como para uma entidade de serviço)
Para a execução como usuário ou entidade de serviço:
- 
acesso ao espaço de trabalho: - permissão de acesso ao espaço de trabalho para operar dentro do workspace
- Pode usar permissão na política de cluster usada pelo pipeline
- permissão de criação de computação no workspace
 
- 
Acesso ao código-fonte: - Pode ler a permissão em todos os Notebooks incluídos no código-fonte pipeline
- Pode ler permissão em arquivos workspace se o pipeline os utilizar
 
- 
PermissõesUnity Catalog (para pipeline usando Unity Catalog): - USE CATALOGno catálogo de destino
- USE SCHEMAe- CREATE TABLEno esquema de destino
- MODIFYpermissão em tabelas existentes que o pipeline atualiza
- CREATE SCHEMApermissão se o pipeline criar novos esquemas
 
- 
Permissões Hive metastore legado (para pipeline usando Hive metastore): - SELECTe permissões- MODIFYem bancos de dados e tabelas de destino
 
- 
Acesso adicional ao armazenamento em nuvem (se aplicável): - Permissões para ler locais de armazenamento de origem
- Permissões para gravar em locais de armazenamento de destino
 
Como definir o usuário execução-as
Você pode definir o usuário run-as por meio das configurações do pipeline na página de monitoramento do pipeline ou no editor de pipeline. Para alterar o usuário na página de monitoramento do pipeline:
- 
Clique em Trabalhos e pipeline para abrir a lista de pipelines e selecione o nome do pipeline que deseja editar. 
- 
Na página de monitoramento do pipeline, clique em Configurações . 
- 
Na barra lateral de configurações do pipeline , clique em Editar ao lado de execução como . 
- 
No widget de edição, selecione uma das seguintes opções: - Sua própria accountde usuário
- Uma entidade de serviço para a qual você tem permissão CAN_USE
 
- 
Clique em Salvar para aplicar as alterações. 
Quando você atualiza com sucesso o usuário execução-as:
- A identidade pipeline muda para usar o novo usuário ou entidade de serviço em todas as execuções futuras
- No pipeline Unity Catalog , o proprietário das tabelas publicadas pelo pipeline é atualizado para corresponder à nova identidade execução-as
- As atualizações futuras pipeline usarão as permissões e credenciais da nova identidade execução-as
- O pipeline contínuo reinicia automaticamente com a nova identidade. O pipeline acionado não reinicia automaticamente e a alteração de execução-as pode interromper uma atualização ativa
Se a atualização do execução-as falhar, você receberá uma mensagem de erro explicando o motivo da falha. Problemas comuns incluem permissões insuficientes na entidade de serviço.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para pipeline:
- 
A edição Advanced do produto dá acesso a todos os recursos do pipeline declarativo LakeFlow . Opcionalmente, você pode executar o pipeline usando as edições Pro ou Core do produto. Consulte Escolha uma edição do produto. 
- 
Você pode optar por usar o modo pipeline contínuo ao executar o pipeline em produção. Veja Modo de pipeline disparado vs. contínuo. 
- 
Se o seu workspace não estiver configurado para Unity Catalog ou se sua carga de trabalho precisar usar Hive metastore legado, consulte Usar o pipeline declarativo LakeFlow com Hive metastorelegado. 
- 
Adicione notificações para atualizações email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline. 
- 
Use o campo Configuração para definir keypar e o valor do pipeline. Essas configurações atendem a dois propósitos: - Defina parâmetros arbitrários que você pode referenciar no seu código-fonte. Consulte Usar parâmetros com pipeline declarativo LakeFlow.
- Configure as definições do pipeline e as configurações do Spark. Consulte a referência de propriedades do pipeline declarativoLakeFlow.
- Configurar tags . tags são par key-valor para o pipeline que são visíveis na lista fluxo de trabalho. As tags de pipeline não estão associadas ao faturamento.
 
- 
Use o canal de visualização para testar seu pipeline em relação às alterações pendentes de tempo de execução do pipeline declarativo LakeFlow e testar o novo recurso. 
Escolha uma edição do produto
Selecione a edição do produto de pipeline declarativo LakeFlow com o melhor recurso para as necessidades do seu pipeline . As seguintes edições do produto estão disponíveis:
- Corepara execução transmissão ingerir cargas de trabalho. Selecione a edição- Corese seu pipeline não exigir recursos avançados, como captura de dados de alterações (CDC) (CDC) ou expectativas declarativas de pipeline LakeFlow .
- Propara execução, transmissão, ingest e cargas de trabalho CDC . A edição do produto- Prooferece suporte a todos os recursos- Core, além de suporte para cargas de trabalho que exigem atualização de tabelas com base em alterações nos dados de origem.
- Advancedpara executar cargas de trabalho de ingestão de transmissão, cargas de trabalho CDC e cargas de trabalho que exigem expectativas. A edição do produto- Advancedsuporta o recurso das edições- Coree- Proe inclui restrições de qualidade de dados com expectativas de pipeline declarativo LakeFlow .
Você pode selecionar a edição do produto ao criar ou editar um pipeline. Você pode escolher uma edição diferente para cada pipeline. Veja a página do produto do pipeline declarativoLakeFlow.
Observação: se o seu pipeline incluir recursos não suportados pela edição do produto selecionada, como Expectativas, você receberá uma mensagem de erro explicando o motivo do erro. Você pode então editar o pipeline para selecionar a edição apropriada.
Configurar código-fonte
Você pode usar o navegador ativo no Editor LakeFlow Pipelines para configurar o código-fonte que define seu pipeline. O código-fonte do pipeline é definido em scripts SQL ou Python armazenados em arquivos workspace . Ao criar ou editar seu pipeline, você pode adicionar um ou mais arquivos. Por default, o código-fonte pipeline está localizado na pasta transformations na pasta raiz do seu pipeline.
Como o pipeline declarativo LakeFlow analisa automaticamente as dependências dataset para construir o gráfico de processamento para seu pipeline, você pode adicionar código-fonte ativo em qualquer ordem.
Para obter mais detalhes sobre como usar o LakeFlow Pipelines Editor, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.
gerenciar dependências externas para pipeline que usam Python
O pipeline declarativo LakeFlow oferece suporte ao uso de dependências externas no seu pipeline, como pacote e biblioteca Python . Para saber mais sobre opções e recomendações para usar dependências, consulte gerenciar dependências Python para o pipeline declarativo LakeFlow.
Use módulos Python armazenados no seu workspace Databricks
Além de implementar seu código Python em arquivos de código-fonte pipeline , você pode usar pastas Git Databricks ou arquivos de workspace para armazenar seu código como módulos Python . Armazenar seu código como módulos Python é especialmente útil quando você tem uma funcionalidade comum que deseja usar em vários pipelines ou Notebooks no mesmo pipeline. Para aprender a usar módulos Python com seu pipeline, consulte Importar módulos Python de pastas Git ou arquivos workspace.