Pular para o conteúdo principal

Conectores padrão em LakeFlow Connect

Esta página descreve os conectores padrão em Databricks LakeFlow Connect, que oferecem níveis mais altos de personalização de ingestão pipeline em comparação com os conectores gerenciar.

Camadas da pilha ETL

Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos corporativos como o Salesforce e bancos de dados como o SQL Server. Outros conectores operam em várias camadas da pilha ETL. Por exemplo, o senhor pode usar conectores padrão na transmissão estruturada para personalização total ou no pipeline declarativo LakeFlow para uma experiência mais gerenciável.

Diagrama de pilha ETL

Databricks recomenda começar com a camada mais gerenciável. Se ele não atender aos seus requisitos (por exemplo, se não for compatível com sua fonte de dados), passe para a próxima camada.

A tabela a seguir descreve as três camadas do produto de ingestão, ordenadas da mais personalizável para a mais gerenciável:

Camada

Descrição

Transmissão estruturada

Apache Spark A transmissão estruturada é um mecanismo de transmissão que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente único usando Spark APIs.

Pipelines Declarativos do LakeFlow

LakeFlow O pipeline declarativo se baseia na transmissão estruturada, oferecendo uma estrutura mais declarativa para a criação de pipeline de dados. O senhor pode definir as transformações a serem executadas em seus dados e o LakeFlow Declarative pipeline gerencia a solicitação, o monitoramento, a qualidade dos dados, os erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que a transmissão estruturada.

gerenciar conectores

Os conectores totalmente gerenciados são baseados no pipeline LakeFlow Declarative, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade do pipeline declarativo LakeFlow para incluir também autenticação específica da fonte, CDC, tratamento de casos extremos, manutenção de longo prazo API, novas tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para qualquer fonte de dados suportada.

Escolha um conector

A tabela a seguir lista os conectores de ingestão padrão por fonte de dados e nível de personalização do site pipeline. Para obter uma experiência de ingestão totalmente automatizada, use os conectores gerenciar.

Os exemplos de SQL para ingestão incremental do armazenamento de objetos na nuvem usam a sintaxe CREATE STREAMING TABLE. Ele oferece aos usuários de SQL uma experiência de ingestão dimensionável e robusta, portanto, é a alternativa recomendada para COPY INTO.

Origem

Mais personalização

Alguma personalização

Mais automação

Armazenamento de objetos na nuvem

Auto Loader com transmissão estruturada

marca de seleção sim Python

marca de seleção sim Scala

Auto Loader com LakeFlow Declarative pipeline

marca de seleção sim Python

marca de seleção sim SQL

Auto Loader com Databricks SQL

marca de seleção sim SQL

Apache Kafka

transmissão estruturada com Kafka source

marca de seleção sim Python

marca de seleção sim Scala

LakeFlow Pipeline declarativo com Kafka source

marca de seleção sim Python

marca de seleção sim SQL

Databricks SQL com fonte Kafka

marca de seleção sim SQL

Google Pub/Sub

transmissão estruturada com fonte Pub/Sub

marca de seleção sim Python

marca de seleção sim Scala

LakeFlow Pipeline declarativo com fonte Pub/Sub

marca de seleção sim Python

marca de seleção sim SQL

Databricks SQL com fonte Pub/Sub

marca de seleção sim SQL

Apache Pulsar

transmissão estruturada com fonte Pulsar

marca de seleção sim Python

marca de seleção sim Scala

LakeFlow Pipeline declarativo com fonte Pulsar

marca de seleção sim Python

marca de seleção sim SQL

Databricks SQL com fonte Pulsar

marca de seleção sim SQL

Programa de ingestão

O senhor pode configurar o pipeline de ingestão para execução em uma programação recorrente ou contínua.

Caso de uso

Modo do pipeline

Ingestão de lotes

Acionado: Processa novos dados em um programa ou quando acionado manualmente.

transmissão ingestão

Contínuo: processa novos dados à medida que eles chegam à fonte.