Pipeline declarativoLakeFlow Spark
LakeFlow Spark Declarative pipeline (SDP) é um framework para criação de lotes e transmissão de pipelines de dados em SQL e Python. LakeFlow SDP estende e é interoperável com o pipeline declarativo Apache Spark , enquanto é executado no Databricks Runtime otimizado para desempenho. Os casos de uso comuns para pipelines incluem a ingestão de dados de fontes como armazenamento cloud (como Amazon S3, Azure ADLS Gen2 e Google Cloud Storage) e barramentos de mensagens (como Apache Kafka, Amazon Kinesis, Google Pub/Sub, Azure EventHub e Apache Pulsar), além de lotes incrementais e transformações de transmissão.
Esta seção fornece informações detalhadas sobre como usar o pipeline. Os tópicos a seguir ajudarão você a começar.
tópico | Descrição |
|---|---|
Aprenda sobre os conceitos de alto nível do SDP, incluindo pipeline, fluxos, tabelas de transmissão e visão materializada. | |
Siga o tutorial para obter experiência prática no uso do pipeline. | |
Aprenda a desenvolver e testar pipelines que criam fluxos para ingestão e transformação de dados. | |
Aprenda a programar e configurar pipeline. | |
Aprenda a monitorar seu pipeline e solucionar problemas de consultas pipeline . | |
Aprenda a usar Python e SQL no desenvolvimento de pipelines. | |
Aprenda sobre como usar tabelas de transmissão e visões materializadas no Databricks SQL. |