Configurar o pipeline

Este artigo descreve a configuração básica do pipeline usando a interface de usuário workspace .

As instruções de configuração neste artigo utilizam Unity Catalog. Para obter instruções sobre como configurar o pipeline com Hive metastore legado, consulte Usar o pipeline declarativo LakeFlow Spark com Hive metastorelegado.

Este artigo discute a funcionalidade do modo de publicação default atual para pipeline. o pipeline criado antes de 5 de fevereiro de 2025 pode usar o modo de publicação legado e o esquema virtual LIVE . Veja o esquema LIVE (legado).

nota

A interface do usuário tem uma opção para exibir e editar configurações em JSON. Você pode configurar a maioria das configurações com a interface do usuário ou uma especificação JSON. Algumas opções avançadas só estão disponíveis usando a configuração JSON.

Arquivos de configuração JSON também são úteis ao implantar pipelines para novos ambientes ou usar a CLI ou APIREST.

Para obter uma referência completa às configurações JSON pipeline , consulte Configurações do pipeline.

Configurar um novo pipeline

Para configurar um novo pipeline, faça o seguinte:

Na parte superior da barra lateral, clique em Novo e então selecione pipelineETL .
Na parte superior, dê um nome exclusivo ao seu pipeline.
Abaixo do nome, você pode ver o catálogo e o esquema default que foram escolhidos para você. Altere-as para dar ao seu pipeline um padrão diferente.

O catálogo default e o esquema default são onde os conjuntos de dados são lidos ou gravados quando você não qualifica o conjunto de dados com um catálogo ou esquema no seu código. Consulte Objetos de banco de dados em Databricks para obter mais informações.
Selecione sua opção preferida para criar um pipeline:
- comece com código de exemplo em SQL para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em SQL.
- comece com código de exemplo em Python para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em Python.
- começar com uma única transformação para criar um novo pipeline e estrutura de pastas, com um novo arquivo de código em branco.
- Adicione um ativo existente para criar um pipeline que você pode associar a arquivos de código existentes no seu workspace.
- Crie um projeto controlado por origem para criar um pipeline com um novo projeto Databricks ativo Bundles ou para adicionar o pipeline a um pacote existente.
Você pode ter arquivos de código-fonte SQL e Python em seu pipeline ETL. Ao criar um novo pipeline e escolher um idioma para o código de exemplo, o idioma será apenas para o código de exemplo incluído no seu pipeline por default.
Ao fazer sua seleção, você será redirecionado para o pipeline recém-criado.

O pipeline ETL é criado com as seguintes configurações default :
- Unity Catalog
- Canal atual
- computação sem servidor
- Modo de desenvolvimento desativado. Esta configuração afeta apenas a execução agendada do pipeline. Executar o pipeline a partir do editor sempre usa o modo de desenvolvimento por padrão.
Esta configuração é recomendada para muitos casos de uso, incluindo desenvolvimento e testes, e é adequada para cargas de trabalho de produção que devem ser executadas em um programador. Para obter detalhes sobre o pipeline de programação, consulte pipeline tarefa para Job.

Você pode ajustar essas configurações na barra de ferramentas do pipeline.

Como alternativa, você pode criar um pipeline ETL no navegador workspace :

Clique em área de trabalho no painel lateral esquerdo.
Selecione qualquer pasta, incluindo pastas do Git.
Clique em Criar no canto superior direito e clique em pipelineETL .

Você também pode criar um pipeline ETL na página Trabalho e pipeline:

No seu workspace, clique em Empregos e pipeline na barra lateral.
Em Novo , clique em PipelineETL .

opções de configuração de computação

Databricks recomenda sempre usar o dimensionamento automático aprimorado . valores padrão para outras configurações compute funcionam bem para muitos pipelines.

Use as seguintes configurações para personalizar as configurações compute :

os administradores do espaço de trabalho podem configurar uma política de cluster . As políticas de computação permitem que os administradores controlem quais opções compute estão disponíveis para os usuários. Consulte Selecionar uma política compute.
Opcionalmente, você pode configurar o modo cluster para execução com tamanho fixo ou dimensionamento automático legado . Consulte Otimizar a utilização cluster do pipeline declarativo LakeFlow Spark com escalonamento automático.
Para cargas de trabalho com dimensionamento automático ativado, defina Min worker e Max worker para estabelecer limites para os comportamentos de dimensionamento. Consulte Configurar compute clássica para pipeline.
Opcionalmente, você pode desativar a aceleração Photon . Veja O que é Photon?.
Utilize a tag Cluster para ajudar a monitorar os custos associados ao oleoduto. Consulte Configurar tags compute.
Configure os tipos de instância para especificar o tipo de máquinas virtuais usadas para executar seu pipeline. Veja Selecionar tipos de instância para executar um pipeline.
- Selecione um tipo de trabalhador otimizado para as cargas de trabalho configuradas no seu pipeline.
- Opcionalmente, você pode selecionar um tipo de motorista diferente do seu tipo worker . Isso pode ser útil para reduzir custos em pipelines com grandes tipos worker e baixa utilização compute do driver ou para escolher um tipo de driver maior para evitar problemas de falta de memória em cargas de trabalho com muitos trabalhadores pequenos.

Defina o usuário execução-as

O usuário execução-as permite que você altere a identidade que um pipeline usa para execução e a propriedade das tabelas que ele cria ou atualiza. Isso é útil em situações em que o usuário original que criou o pipeline foi desativado, por exemplo, se ele saiu da empresa. Nesses casos, o pipeline pode parar de funcionar e as tabelas publicadas podem ficar inacessíveis para outras pessoas. Ao atualizar o pipeline para execução como uma identidade diferente — como uma entidade de serviço — e reatribuir a propriedade das tabelas publicadas, você pode restaurar o acesso e garantir que o pipeline continue funcionando. Executar pipelines como entidades de serviço é considerado uma prática recomendada porque eles não estão vinculados a usuários individuais, o que os torna mais seguros, estáveis e confiáveis para cargas de trabalho automatizadas.

Permissões necessárias

Para o usuário que está fazendo a alteração:

Permissões CAN_MANAGE no pipeline
Função CAN_USE na entidade de serviço (se estiver configurando execução como para uma entidade de serviço)

Para a execução como usuário ou entidade de serviço:

acesso ao espaço de trabalho:
- permissão de acesso ao espaço de trabalho para operar dentro do workspace
- Pode usar permissão na política de cluster usada pelo pipeline
- permissão de criação de computação no workspace
Acesso ao código-fonte:
- Pode ler a permissão em todos os Notebooks incluídos no código-fonte pipeline
- Pode ler permissão em arquivos workspace se o pipeline os utilizar
PermissõesUnity Catalog (para pipeline usando Unity Catalog):
- USE CATALOG no catálogo de destino
- USE SCHEMA e CREATE TABLE no esquema de destino
- MODIFY permissão em tabelas existentes que o pipeline atualiza
- CREATE SCHEMA permissão se o pipeline criar novos esquemas
Permissões Hive metastore legado (para pipeline usando Hive metastore):
- SELECT e permissões MODIFY em bancos de dados e tabelas de destino
Acesso adicional ao armazenamento em nuvem (se aplicável):
- Permissões para ler locais de armazenamento de origem
- Permissões para gravar em locais de armazenamento de destino

Como definir o usuário execução-as

Você pode definir o usuário run-as por meio das configurações do pipeline na página de monitoramento do pipeline ou no editor de pipeline. Para alterar o usuário na página de monitoramento do pipeline:

Clique em Trabalhos e pipeline para abrir a lista de pipelines e selecione o nome do pipeline que deseja editar.
Na página de monitoramento do pipeline, clique em Configurações .
Na barra lateral de configurações do pipeline , clique em Editar ao lado de execução como .
No widget de edição, selecione uma das seguintes opções:
- Sua própria accountde usuário
- Uma entidade de serviço para a qual você tem permissão CAN_USE
Clique em Salvar para aplicar as alterações.

Quando você atualiza com sucesso o usuário execução-as:

A identidade pipeline muda para usar o novo usuário ou entidade de serviço em todas as execuções futuras
No pipeline Unity Catalog , o proprietário das tabelas publicadas pelo pipeline é atualizado para corresponder à nova identidade execução-as
As atualizações futuras pipeline usarão as permissões e credenciais da nova identidade execução-as
O pipeline contínuo reinicia automaticamente com a nova identidade. O pipeline acionado não reinicia automaticamente e a alteração de execução-as pode interromper uma atualização ativa

nota

Se a atualização do execução-as falhar, você receberá uma mensagem de erro explicando o motivo da falha. Problemas comuns incluem permissões insuficientes na entidade de serviço.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipeline:

A edição Advanced do produto dá acesso a todos os recursos do pipeline declarativo LakeFlow Spark . Opcionalmente, você pode executar o pipeline usando as edições Pro ou Core do produto. Consulte Escolher uma edição do produto.
Você pode optar por usar o modo pipeline contínuo ao executar o pipeline em produção. Veja Modo de pipeline disparado vs. contínuo.
Se o seu workspace não estiver configurado para Unity Catalog ou se a sua carga de trabalho precisar usar Hive metastore legado, consulte Usar o pipeline declarativo LakeFlow Spark com Hive metastorelegado.
Adicione notificações para atualizações email com base em condições de sucesso ou falha. Consulte Adicionar notificações email para eventos pipeline.
Use o campo Configuração para definir keypar e o valor do pipeline. Essas configurações atendem a dois propósitos:
- Defina parâmetros arbitrários que você pode referenciar em seu código-fonte. Consulte Usar parâmetros com pipeline.
- Configure as definições do pipeline e as configurações do Spark. Consulte a referência de propriedades do pipeline.
- Configurar tags . tags são par key-valor para o pipeline que são visíveis na lista fluxo de trabalho. As tags de pipeline não estão associadas ao faturamento.
Use o canal de pré-visualização para testar seu pipeline em relação às alterações pendentes no runtime do pipeline declarativo LakeFlow Spark e para experimentar novos recursos.

Escolha uma edição do produto

Selecione a edição do produto LakeFlow Spark Declarative Pipeline com o recurso mais adequado aos requisitos do seu pipeline . As seguintes edições do produto estão disponíveis:

Core para execução transmissão ingerir cargas de trabalho. Selecione a edição Core se seu pipeline não exigir recursos avançados, como captura de dados de alterações (CDC) (CDC) ou expectativas declarativas de pipeline LakeFlow Spark .
Pro para execução, transmissão, ingest e cargas de trabalho CDC . A edição do produto Pro oferece suporte a todos os recursos Core , além de suporte para cargas de trabalho que exigem atualização de tabelas com base em alterações nos dados de origem.
Advanced para execução de cargas de trabalho de ingestão de transmissões, cargas de trabalho CDC e cargas de trabalho que exigem expectativas. A edição do produto Advanced suporta o recurso das edições Core e Pro e inclui restrições de qualidade de dados com expectativas de pipeline declarativo LakeFlow Spark .

Você pode selecionar a edição do produto ao criar ou editar um pipeline. Você pode escolher uma edição diferente para cada pipeline. Consulte a página do produtoLakeFlow Spark Declarative pipeline.

Observação: se o seu pipeline incluir recursos não suportados pela edição do produto selecionada, como Expectativas, você receberá uma mensagem de erro explicando o motivo do erro. Você pode então editar o pipeline para selecionar a edição apropriada.

Configurar código-fonte

Você pode usar o navegador ativo no Editor LakeFlow Pipelines para configurar o código-fonte que define seu pipeline. O código-fonte do pipeline é definido em scripts SQL ou Python armazenados em arquivos workspace . Ao criar ou editar seu pipeline, você pode adicionar um ou mais arquivos. Por default, o código-fonte pipeline está localizado na pasta transformations na pasta raiz do seu pipeline.

Como o pipeline declarativo LakeFlow Spark analisa automaticamente as dependências dataset para construir o gráfico de processamento do seu pipeline, você pode adicionar o código-fonte ativo em qualquer ordem.

Para obter mais detalhes sobre como usar o LakeFlow Pipelines Editor, consulte Desenvolver e depurar pipeline ETL com o LakeFlow Pipelines Editor.

gerenciar dependências externas para pipeline que usam Python

Suporte a pipelines que utilizam dependências externas, como pacotes e bibliotecas Python . Para saber mais sobre opções e recomendações para usar dependências, consulte Gerenciar dependências Python para pipeline.

Use módulos Python armazenados no seu workspace Databricks

Além de implementar seu código Python em arquivos de código-fonte pipeline , você pode usar pastas Git Databricks ou arquivos de workspace para armazenar seu código como módulos Python . Armazenar seu código como módulos Python é especialmente útil quando você tem uma funcionalidade comum que deseja usar em vários pipelines ou Notebooks no mesmo pipeline. Para aprender a usar módulos Python com seu pipeline, consulte Importar módulos Python de pastas Git ou arquivos workspace.

Configurar um novo pipeline​

opções de configuração de computação​

Defina o usuário execução-as​

Permissões necessárias​

Como definir o usuário execução-as​

Outras considerações de configuração​

Escolha uma edição do produto​

Configurar código-fonte​

gerenciar dependências externas para pipeline que usam Python​

Use módulos Python armazenados no seu workspace Databricks​