Pular para o conteúdo principal

Pipeline declarativoLakeFlow Spark

LakeFlow Spark Declarative pipeline (SDP) é um framework para criação de lotes e transmissão de pipelines de dados em SQL e Python. LakeFlow SDP estende e é interoperável com o pipeline declarativo Apache Spark , enquanto é executado no Databricks Runtime otimizado para desempenho. Os casos de uso comuns para pipelines incluem a ingestão de dados de fontes como armazenamento cloud (como Amazon S3, Azure ADLS Gen2 e Google Cloud Storage) e barramentos de mensagens (como Apache Kafka, Amazon Kinesis, Google Pub/Sub, Azure EventHub e Apache Pulsar), além de lotes incrementais e transformações de transmissão.

Esta seção fornece informações detalhadas sobre como usar o pipeline. Os tópicos a seguir ajudarão você a começar.

tópico

Descrição

Conceitos de pipeline declarativo LakeFlow Spark

Aprenda sobre os conceitos de alto nível do SDP, incluindo pipeline, fluxos, tabelas de transmissão e visão materializada.

Tutoriais

Siga o tutorial para obter experiência prática no uso do pipeline.

Desenvolver pipelines

Aprenda a desenvolver e testar pipelines que criam fluxos para ingestão e transformação de dados.

Configurar pipeline

Aprenda a programar e configurar pipeline.

Monitorar pipelines

Aprenda a monitorar seu pipeline e solucionar problemas de consultas pipeline .

Desenvolvedores

Aprenda a usar Python e SQL no desenvolvimento de pipelines.

pipeline no Databricks SQL

Aprenda sobre como usar tabelas de transmissão e visões materializadas no Databricks SQL.

Mais informações