O que são pipelines?
Um pipeline é a unidade principal de desenvolvimento e execução em LakeFlow Spark Declarative Pipelines (SDP). Um pipeline é uma coleção de arquivos de código-fonte e uma configuração. Os arquivos de origem declaram conjuntos de dados: tabelas de transmissão, views materializadas e views, juntamente com as consultas e fluxos que os produzem. A configuração especifica como o pipeline é executado e onde os dados são armazenados.
Um pipeline é o contêiner para os fluxos, tabelas de transmissão, visualizações materializadas e coletores que são definidos. Enquanto o pipeline está em execução, ele analisa as dependências entre esses objetos e orquestra a ordem de execução e a paralelização automaticamente. Para obter detalhes sobre os objetos que um pipeline contém, consulte O que são os Pipelines Declarativos do LakeFlow Spark.
Código-fonte do pipeline
O código-fonte do pipeline é escrito em Python ou SQL. Um único pipeline pode misturar arquivos-fonte Python e SQL, mas cada arquivo pode conter apenas uma linguagem. Como o pipeline analisa as dependências do dataset em todos os seus arquivos de origem, você pode organizar o código-fonte em arquivos em qualquer ordem.
Para obter orientações de desenvolvimento específicas do idioma, consulte Desenvolver código de pipeline com Python e Desenvolver código para pipelines declarativos do Lakeflow Spark com SQL.
Gráfico de pipeline
Pipelines inferem automaticamente dependências entre datasets e as organizam em um gráfico acíclico direcionado (DAG). O gráfico determina a ordem de avaliação: datasets a montante são computados antes dos a jusante. É possível visualizar e interagir com o gráfico do pipeline no Editor de LakeFlow Pipelines.
Atualizações de pipeline
Uma atualização de pipeline calcula o estado atual de cada dataset por meio de:
- Iniciar um cluster com a configuração correta.
- Analisando arquivos de origem e construindo o gráfico de dependência.
- Computando ou atualizando de forma incremental cada dataset na ordem de dependência.
Pipelines são executados em dois modos:
- Acionado : o pipeline é executado uma vez e para quando todos os datasets estiverem atualizados.
- Contínuo: O pipeline executa indefinidamente e processa novos dados à medida que chegam.
As atualizações acionadas interativamente a partir do editor otimizam para uma iteração rápida — reutilizando o cluster e desativando as tentativas automáticas. Consulte Atualizar comportamento de execução.
Tipos de pipeline
A lista Jobs & Pipelines inclui mais do que apenas pipelines declarativos do Lakeflow Spark. Databricks executa vários tipos diferentes de pipelines, e a lista Jobs e pipelines e a página de monitoramento de pipelines rotulam cada um com um tipo para que você possa diferenciá-los. A tabela a seguir mapeia cada tipo de pipeline para o valor pipeline_type registrado no log de eventos:
Digite em **Jobs e pipelines** |
| Descrição |
|---|---|---|
ETL |
| Um pipeline definido em Lakeflow Spark Declarative Pipelines. Consulte Lakeflow Spark Declarative Pipelines. |
Ingestão |
| Um pipeline de ingestão gerenciado criado com LakeFlow Connect. Consulte conectores gerenciados no LakeFlow Connect. |
MV/ST |
| Um pipeline autônomo. Veja pipelines independentes. |
Sincronização de tabelas de banco de dados |
| Um pipeline que sincroniza uma tabela para um banco de dados Lakebase. Consulte Disponibilize dados do lakehouse com tabelas sincronizadas (Lakebase provisionado). |
Pipelines autônomos
É possível criar e gerenciar tabelas de transmissão e views materializadas fora dos Pipelines Declarativos do Lakeflow Spark como *pipelines autônomos*. É possível usar o Databricks SQL ou Python para criar e refresh tabelas de transmissão autônomas e visualizações materializadas. Eles são executados na mesma infraestrutura Databricks e têm a mesma semântica de processamento como em Lakeflow Spark Declarative Pipelines. Quando se define uma tabela de transmissão autônoma ou uma materialized view, os fluxos são definidos implicitamente como parte da definição da tabela de transmissão ou da materialized view.
Para obter detalhes, consulte pipelines autônomos.
Editor LakeFlow Pipelines
O Editor de LakeFlow Pipelines é uma IDE desenvolvida para o desenvolvimento de pipeline. Fornece:
- Um editor de código multifile para arquivos de origem Python e SQL
- Um navegador de ativos de pipeline para organizar arquivos e pastas
- Um gráfico de pipeline interativo mostrando as dependências e o estado do dataset.
- Pré-visualizações de dados para tabelas de transmissão e views materializadas
- Percepções de execução e um painel de problemas exibindo resultados da execução mais recente
- Execução seletiva para refresh arquivos ou tabelas individuais sem executar o pipeline completo.
O editor integra-se à Databricks Platform e oferece suporte para controle de versão por meio de pastas Git. Para obter orientações passo a passo, consulte Desenvolva e depure pipelines ETL com o Editor do Lakeflow Pipelines.