Conectores padrão em LakeFlow Connect
Esta página descreve os conectores padrão em Databricks LakeFlow Connect, que oferecem níveis mais altos de personalização de ingestão pipeline em comparação com os conectores gerenciar.
Camadas da pilha ETL
Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos corporativos como o Salesforce e bancos de dados como o SQL Server. Outros conectores operam em várias camadas da pilha ETL. Por exemplo, o senhor pode usar conectores padrão na transmissão estruturada para personalização total ou no pipeline declarativo LakeFlow para uma experiência mais gerenciável.
Databricks recomenda começar com a camada mais gerenciável. Se ele não atender aos seus requisitos (por exemplo, se não for compatível com sua fonte de dados), passe para a próxima camada.
A tabela a seguir descreve as três camadas do produto de ingestão, ordenadas da mais personalizável para a mais gerenciável:
Camada | Descrição |
---|---|
Apache Spark A transmissão estruturada é um mecanismo de transmissão que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando Spark APIs. | |
LakeFlow O pipeline declarativo se baseia na transmissão estruturada, oferecendo uma estrutura mais declarativa para a criação de pipeline de dados. O senhor pode definir as transformações a serem executadas em seus dados e o LakeFlow Declarative pipeline gerencia a solicitação, o monitoramento, a qualidade dos dados, os erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que a transmissão estruturada. | |
Os conectores totalmente gerenciados são baseados no pipeline LakeFlow Declarative, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade do pipeline declarativo LakeFlow para incluir também autenticação específica da fonte, CDC, tratamento de casos extremos, manutenção de longo prazo API, novas tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para qualquer fonte de dados suportada. |
Escolha um conector
A tabela a seguir lista os conectores de ingestão padrão por fonte de dados e nível de personalização do site pipeline. Para obter uma experiência de ingestão totalmente automatizada, use os conectores gerenciar.
Os exemplos de SQL para ingestão incremental do armazenamento de objetos na nuvem usam a sintaxe CREATE STREAMING TABLE
. Ele oferece aos usuários de SQL uma experiência de ingestão dimensionável e robusta, portanto, é a alternativa recomendada para COPY INTO
.
Origem | Mais personalização | Alguma personalização | Mais automação |
---|---|---|---|
Armazenamento de objetos na nuvem | Auto Loader com transmissão estruturada
| Auto Loader com LakeFlow Declarative pipeline
| Auto Loader com Databricks SQL
|
Apache Kafka | transmissão estruturada com Kafka source
| LakeFlow Pipeline declarativo com Kafka source
| Databricks SQL com fonte Kafka
|
Google Pub/Sub | transmissão estruturada com fonte Pub/Sub
| LakeFlow Pipeline declarativo com fonte Pub/Sub
| Databricks SQL com fonte Pub/Sub
|
Apache Pulsar | transmissão estruturada com fonte Pulsar
| LakeFlow Pipeline declarativo com fonte Pulsar
| Databricks SQL com fonte Pulsar
|
Programa de ingestão
O senhor pode configurar o pipeline de ingestão para execução em uma programação recorrente ou contínua.
Caso de uso | Modo do pipeline |
---|---|
Ingestão de lotes | Acionado: Processa novos dados em um programa ou quando acionado manualmente. |
transmissão ingestão | Contínuo: processa novos dados à medida que eles chegam à fonte. |