Conectores padrão em LakeFlow Connect

Esta página descreve os conectores padrão em Databricks LakeFlow Connect, que oferecem níveis mais altos de personalização de ingestão pipeline em comparação com os conectores gerenciar.

Camadas da pilha ETL

Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos corporativos como o Salesforce e bancos de dados como o SQL Server. Outros conectores operam em várias camadas da pilha ETL. Por exemplo, o senhor pode usar conectores padrão na transmissão estruturada para personalização total ou no pipeline declarativo LakeFlow para uma experiência mais gerenciável.

Diagrama de pilha ETL

Databricks recomenda começar com a camada mais gerenciável. Se ele não atender aos seus requisitos (por exemplo, se não for compatível com sua fonte de dados), passe para a próxima camada.

A tabela a seguir descreve as três camadas do produto de ingestão, ordenadas da mais personalizável para a mais gerenciável:

Camada	Descrição
Transmissão estruturada	Apache Spark A transmissão estruturada é um mecanismo de transmissão que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando Spark APIs.
Pipelines Declarativos do LakeFlow	LakeFlow O pipeline declarativo se baseia na transmissão estruturada, oferecendo uma estrutura mais declarativa para a criação de pipeline de dados. O senhor pode definir as transformações a serem executadas em seus dados e o LakeFlow Declarative pipeline gerencia a solicitação, o monitoramento, a qualidade dos dados, os erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que a transmissão estruturada.
gerenciar conectores	Os conectores totalmente gerenciados são baseados no pipeline LakeFlow Declarative, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade do pipeline declarativo LakeFlow para incluir também autenticação específica da fonte, CDC, tratamento de casos extremos, manutenção de longo prazo API, novas tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para qualquer fonte de dados suportada.

Escolha um conector

A tabela a seguir lista os conectores de ingestão padrão por fonte de dados e nível de personalização do site pipeline. Para obter uma experiência de ingestão totalmente automatizada, use os conectores gerenciar.

Os exemplos de SQL para ingestão incremental do armazenamento de objetos na nuvem usam a sintaxe CREATE STREAMING TABLE. Ele oferece aos usuários de SQL uma experiência de ingestão dimensionável e robusta, portanto, é a alternativa recomendada para COPY INTO.

Origem	Mais personalização	Alguma personalização	Mais automação
Armazenamento de objetos na nuvem	Auto Loader com transmissão estruturada Python Scala	Auto Loader com LakeFlow Declarative pipeline Python SQL	Auto Loader com Databricks SQL SQL
Apache Kafka	transmissão estruturada com Kafka source Python Scala	LakeFlow Pipeline declarativo com Kafka source Python SQL	Databricks SQL com fonte Kafka SQL
Google Pub/Sub	transmissão estruturada com fonte Pub/Sub Python Scala	LakeFlow Pipeline declarativo com fonte Pub/Sub Python SQL	Databricks SQL com fonte Pub/Sub SQL
Apache Pulsar	transmissão estruturada com fonte Pulsar Python Scala	LakeFlow Pipeline declarativo com fonte Pulsar Python SQL	Databricks SQL com fonte Pulsar SQL

Origem

Mais personalização

Alguma personalização

Mais automação

Armazenamento de objetos na nuvem

Auto Loader com transmissão estruturada

Python

Scala

Auto Loader com LakeFlow Declarative pipeline

Python

SQL

Auto Loader com Databricks SQL

SQL

Apache Kafka

transmissão estruturada com Kafka source

Python

Scala

LakeFlow Pipeline declarativo com Kafka source

Python

SQL

Databricks SQL com fonte Kafka

SQL

Google Pub/Sub

transmissão estruturada com fonte Pub/Sub

Python

Scala

LakeFlow Pipeline declarativo com fonte Pub/Sub

Python

SQL

Databricks SQL com fonte Pub/Sub

SQL

Apache Pulsar

transmissão estruturada com fonte Pulsar

Python

Scala

LakeFlow Pipeline declarativo com fonte Pulsar

Python

SQL

Databricks SQL com fonte Pulsar

SQL

Programa de ingestão

O senhor pode configurar o pipeline de ingestão para execução em uma programação recorrente ou contínua.

Caso de uso	Modo do pipeline
Ingestão de lotes	Acionado: Processa novos dados em um programa ou quando acionado manualmente.
transmissão ingestão	Contínuo: processa novos dados à medida que eles chegam à fonte.

Camadas da pilha ETL​

Escolha um conector​

Programa de ingestão​

Camadas da pilha ETL

Escolha um conector

Programa de ingestão