Construir pipelines
Crie pipelines declarativos do LakeFlow Spark carregando e transformando dados, aplicando verificações de qualidade de dados e escrevendo os resultados nas suas tabelas de destino. Os tópicos a seguir abordam as tarefas envolvidas na criação e execução de pipelines.
Para aprender os conceitos declarativos por trás de pipeline — datasets, fluxos e o gráfico do pipeline — consulte O que é o Lakeflow Spark Declarative Pipelines. Para um passo a passo, consulte Tutorial: criar um pipeline ETL usando captura de dados de alterações (CDC).
tópico | Descrição |
|---|---|
Criar, executar e depurar pipelines no editor, com um gráfico de pipeline, pré-visualizações de dados e execução seletiva. | |
Gerar, editar e depurar código de pipeline a partir de um único prompt com o modo Agente do Genie Code no editor. | |
Faça a ingestão de dados em seu pipeline de armazenamento de objetos em cloud e barramentos de mensagens de transmissão. | |
Aplique transformações, join e agregações para construir dataset derivados. | |
Reprocessar todos os dados de origem para reconstruir uma tabela de transmissão. | |
Validar registros com expectativas e controlar o que acontece quando um registro falha. | |
Grave os resultados de pipeline em coletores, como Apache Kafka e Hubs de Eventos do Azure, e use fluxos para gravar em destinos de transmissão. |
Recursos adicionais
- Otimize o processamento com estado com marcas d'água
- Atualização incremental para visualizações materializadas
- Acesso a visualizações materializadas e tabelas de transmissão usando sistemas externos
- Desenvolva e depure pipelines com um Notebook (legado)
- Desenvolva o código do pipeline em seu ambiente de desenvolvimento local
- Usar parâmetros com pipelines
- Converter um pipeline em um projeto de pacote
- Prepare seus dados para compliance com o GDPR