Configurar o pipeline declarativo LakeFlow
Este artigo descreve a configuração básica do pipeline declarativo LakeFlow usando a interface do usuário workspace .
As instruções de configuração neste artigo usam Unity Catalog. Para obter instruções sobre como configurar o pipeline com Hive metastore legado, consulte Usar o pipeline declarativo LakeFlow com Hive metastorelegado.
Este artigo discute a funcionalidade do modo de publicação default atual para pipeline. o pipeline criado antes de 5 de fevereiro de 2025 pode usar o modo de publicação legado e o esquema virtual LIVE
. Veja o esquema LIVE (legado).
A interface do usuário tem uma opção para exibir e editar configurações em JSON. Você pode configurar a maioria das configurações com a interface do usuário ou uma especificação JSON. Algumas opções avançadas só estão disponíveis usando a configuração JSON.
Arquivos de configuração JSON também são úteis ao implantar pipelines para novos ambientes ou usar a CLI ou APIREST.
Para obter uma referência completa às configurações JSON do pipeline declarativo LakeFlow , consulte Configurações do pipeline declarativoLakeFlow.
Configurar um novo pipeline
Para configurar um novo pipeline, faça o seguinte:
-
Na parte superior da barra lateral, clique em
Novo e então selecione
pipelineETL .
-
Na parte superior, dê um nome exclusivo ao seu pipeline.
-
Abaixo do nome, você pode ver o catálogo e o esquema default que foram escolhidos para você. Altere-as para dar ao seu pipeline um padrão diferente.
O catálogo default e o esquema default são onde os conjuntos de dados são lidos ou gravados quando você não qualifica o conjunto de dados com um catálogo ou esquema no seu código. Consulte Objetos de banco de dados em Databricks para obter mais informações.
-
Selecione sua opção preferida para criar um pipeline:
- comece com código de exemplo em SQL para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em SQL.
- comece com código de exemplo em Python para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em Python.
- começar com uma única transformação para criar um novo pipeline e estrutura de pastas, com um novo arquivo de código em branco.
- Adicione um ativo existente para criar um pipeline que você pode associar a arquivos de código existentes no seu workspace.
- Crie um projeto controlado por origem para criar um pipeline com um novo projeto Databricks ativo Bundles ou para adicionar o pipeline a um pacote existente.
Você pode ter arquivos de código-fonte SQL e Python em seu pipeline ETL. Ao criar um novo pipeline e escolher um idioma para o código de exemplo, o idioma será apenas para o código de exemplo incluído no seu pipeline por default.
-
Ao fazer sua seleção, você será redirecionado para o pipeline recém-criado.
O pipeline ETL é criado com as seguintes configurações default :
- Unity Catalog
- Canal atual
- computação sem servidor
- Modo de desenvolvimento desativado. Esta configuração afeta apenas a execução agendada do pipeline. Executar o pipeline a partir do editor sempre usa o modo de desenvolvimento por padrão.
Esta configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e testes, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre o pipeline de programação, consulte pipeline tarefa para Job.
Você pode ajustar essas configurações na barra de ferramentas do pipeline.
Como alternativa, você pode criar um pipeline ETL no navegador workspace :
- Clique em área de trabalho no painel lateral esquerdo.
- Selecione qualquer pasta, incluindo pastas do Git.
- Clique em Criar no canto superior direito e clique em pipelineETL .
Você também pode criar um pipeline ETL na página Trabalho e pipeline:
- No seu workspace, clique em
Empregos e pipeline na barra lateral.
- Em Novo , clique em PipelineETL .
opções de configuração de computação
Databricks recomenda sempre usar o dimensionamento automático aprimorado . valores padrão para outras configurações compute funcionam bem para muitos pipelines.
Use as seguintes configurações para personalizar as configurações compute :
-
os administradores do espaço de trabalho podem configurar uma política de cluster . As políticas de computação permitem que os administradores controlem quais opções compute estão disponíveis para os usuários. Consulte Selecionar uma política compute.
-
Opcionalmente, você pode configurar o modo de cluster para execução com tamanho fixo ou dimensionamento automático legado . Consulte Otimizar a utilização cluster do pipeline declarativo LakeFlow com dimensionamento automático.
-
Para cargas de trabalho com dimensionamento automático habilitado, defina Min worker e Max worker para definir limites para comportamentos de dimensionamento. Consulte Configurar compute clássica para o pipeline declarativo LakeFlow.
-
Opcionalmente, você pode desativar a aceleração Photon . Veja O que é Photon?.
-
Use o Cluster Tag para ajudar a monitorar os custos associados ao pipeline declarativo LakeFlow . Consulte Configurar tags compute.
-
Configure os tipos de instância para especificar o tipo de máquinas virtuais usadas para executar seu pipeline. Veja Selecionar tipos de instância para executar um pipeline.
- Selecione um tipo de trabalhador otimizado para as cargas de trabalho configuradas no seu pipeline.
- Opcionalmente, você pode selecionar um tipo de motorista diferente do seu tipo worker . Isso pode ser útil para reduzir custos em pipelines com grandes tipos worker e baixa utilização compute do driver ou para escolher um tipo de driver maior para evitar problemas de falta de memória em cargas de trabalho com muitos trabalhadores pequenos.
Defina o usuário execução-as
O usuário execução-as permite que você altere a identidade que um pipeline usa para execução e a propriedade das tabelas que ele cria ou atualiza. Isso é útil em situações em que o usuário original que criou o pipeline foi desativado, por exemplo, se ele saiu da empresa. Nesses casos, o pipeline pode parar de funcionar e as tabelas publicadas podem ficar inacessíveis para outras pessoas. Ao atualizar o pipeline para execução como uma identidade diferente — como uma entidade de serviço — e reatribuir a propriedade das tabelas publicadas, você pode restaurar o acesso e garantir que o pipeline continue funcionando. Executar pipelines como entidades de serviço é considerado uma prática recomendada porque eles não estão vinculados a usuários individuais, o que os torna mais seguros, estáveis e confiáveis para cargas de trabalho automatizadas.
Permissões necessárias
Para o usuário que está fazendo a alteração:
- Permissões CAN_MANAGE no pipeline
- Função CAN_USE na entidade de serviço (se estiver configurando execução como para uma entidade de serviço)
Para a execução como usuário ou entidade de serviço:
-
acesso ao espaço de trabalho:
- permissão de acesso ao espaço de trabalho para operar dentro do workspace
- Pode usar permissão na política de cluster usada pelo pipeline
- permissão de criação de computação no workspace
-
Acesso ao código-fonte:
- Pode ler a permissão em todos os Notebooks incluídos no código-fonte pipeline
- Pode ler permissão em arquivos workspace se o pipeline os utilizar
-
PermissõesUnity Catalog (para pipeline usando Unity Catalog):
USE CATALOG
no catálogo de destinoUSE SCHEMA
eCREATE TABLE
no esquema de destinoMODIFY
permissão em tabelas existentes que o pipeline atualizaCREATE SCHEMA
permissão se o pipeline criar novos esquemas
-
Permissões Hive metastore legado (para pipeline usando Hive metastore):
SELECT
e permissõesMODIFY
em bancos de dados e tabelas de destino
-
Acesso adicional ao armazenamento em nuvem (se aplicável):
- Permissões para ler locais de armazenamento de origem
- Permissões para gravar em locais de armazenamento de destino
Como definir o usuário execução-as
Você pode definir o usuário run-as
por meio das configurações do pipeline na página de monitoramento do pipeline ou no editor de pipeline. Para alterar o usuário na página de monitoramento do pipeline:
-
Clique em Trabalhos e pipeline para abrir a lista de pipelines e selecione o nome do pipeline que deseja editar.
-
Na página de monitoramento do pipeline, clique em Configurações .
-
Na barra lateral de configurações do pipeline , clique em
Editar ao lado de execução como .
-
No widget de edição, selecione uma das seguintes opções:
- Sua própria accountde usuário
- Uma entidade de serviço para a qual você tem permissão CAN_USE
-
Clique em Salvar para aplicar as alterações.
Quando você atualiza com sucesso o usuário execução-as:
- A identidade pipeline muda para usar o novo usuário ou entidade de serviço em todas as execuções futuras
- No pipeline Unity Catalog , o proprietário das tabelas publicadas pelo pipeline é atualizado para corresponder à nova identidade execução-as
- As atualizações futuras pipeline usarão as permissões e credenciais da nova identidade execução-as
- O pipeline contínuo reinicia automaticamente com a nova identidade. O pipeline acionado não reinicia automaticamente e a alteração de execução-as pode interromper uma atualização ativa
Se a atualização do execução-as falhar, você receberá uma mensagem de erro explicando o motivo da falha. Problemas comuns incluem permissões insuficientes na entidade de serviço.
Outras considerações de configuração
As seguintes opções de configuração também estão disponíveis para pipeline:
-
A edição Advanced do produto dá acesso a todos os recursos do pipeline declarativo LakeFlow . Opcionalmente, você pode executar o pipeline usando as edições Pro ou Core do produto. Consulte Escolha uma edição do produto.
-
Você pode optar por usar o modo pipeline contínuo ao executar o pipeline em produção. Veja Modo de pipeline disparado vs. contínuo.
-
Se o seu workspace não estiver configurado para Unity Catalog ou se sua carga de trabalho precisar usar Hive metastore legado, consulte Usar o pipeline declarativo LakeFlow com Hive metastorelegado.
-
Adicione notificações para atualizações email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.
-
Use o campo Configuração para definir keypar e o valor do pipeline. Essas configurações atendem a dois propósitos:
- Defina parâmetros arbitrários que você pode referenciar no seu código-fonte. Consulte Usar parâmetros com pipeline declarativo LakeFlow.
- Configure as definições do pipeline e as configurações do Spark. Consulte a referência de propriedades do pipeline declarativoLakeFlow.
- Configurar tags . tags são par key-valor para o pipeline que são visíveis na lista fluxo de trabalho. As tags de pipeline não estão associadas ao faturamento.
-
Use o canal de visualização para testar seu pipeline em relação às alterações pendentes de tempo de execução do pipeline declarativo LakeFlow e testar o novo recurso.
Escolha uma edição do produto
Selecione a edição do produto de pipeline declarativo LakeFlow com o melhor recurso para as necessidades do seu pipeline . As seguintes edições do produto estão disponíveis:
Core
para execução transmissão ingerir cargas de trabalho. Selecione a ediçãoCore
se seu pipeline não exigir recursos avançados, como captura de dados de alterações (CDC) (CDC) ou expectativas declarativas de pipeline LakeFlow .Pro
para execução, transmissão, ingest e cargas de trabalho CDC . A edição do produtoPro
oferece suporte a todos os recursosCore
, além de suporte para cargas de trabalho que exigem atualização de tabelas com base em alterações nos dados de origem.Advanced
para executar cargas de trabalho de ingestão de transmissão, cargas de trabalho CDC e cargas de trabalho que exigem expectativas. A edição do produtoAdvanced
suporta o recurso das ediçõesCore
ePro
e inclui restrições de qualidade de dados com expectativas de pipeline declarativo LakeFlow .
Você pode selecionar a edição do produto ao criar ou editar um pipeline. Você pode escolher uma edição diferente para cada pipeline. Veja a página do produto do pipeline declarativoLakeFlow.
Observação: se o seu pipeline incluir recursos não suportados pela edição do produto selecionada, como Expectativas, você receberá uma mensagem de erro explicando o motivo do erro. Você pode então editar o pipeline para selecionar a edição apropriada.
Configurar código-fonte
Você pode usar o navegador ativo no Editor LakeFlow Pipelines para configurar o código-fonte que define seu pipeline. O código-fonte do pipeline é definido em scripts SQL ou Python armazenados em arquivos workspace . Ao criar ou editar seu pipeline, você pode adicionar um ou mais arquivos. Por default, o código-fonte pipeline está localizado na pasta transformations
na pasta raiz do seu pipeline.
Como o pipeline declarativo LakeFlow analisa automaticamente as dependências dataset para construir o gráfico de processamento para seu pipeline, você pode adicionar código-fonte ativo em qualquer ordem.
Para obter mais detalhes sobre como usar o LakeFlow Pipelines Editor, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.
gerenciar dependências externas para pipeline que usam Python
O pipeline declarativo LakeFlow oferece suporte ao uso de dependências externas no seu pipeline, como pacote e biblioteca Python . Para saber mais sobre opções e recomendações para usar dependências, consulte gerenciar dependências Python para o pipeline declarativo LakeFlow.
Use módulos Python armazenados no seu workspace Databricks
Além de implementar seu código Python em arquivos de código-fonte pipeline , você pode usar pastas Git Databricks ou arquivos de workspace para armazenar seu código como módulos Python . Armazenar seu código como módulos Python é especialmente útil quando você tem uma funcionalidade comum que deseja usar em vários pipelines ou Notebooks no mesmo pipeline. Para aprender a usar módulos Python com seu pipeline, consulte Importar módulos Python de pastas Git ou arquivos workspace.