Pular para o conteúdo principal

Conectores de banco de dados no LakeFlow Connect

Databricks LakeFlow Connect fornece conectores totalmente gerenciados para ingestão de dados de bancos de dados relacionais usando captura de dados de alterações (CDC) (CDC). Cada conector rastreia de forma eficiente as alterações no banco de dados de origem e as aplica incrementalmente às tabelas Delta.

Conectores suportados

    • MySQL
    • Ingira dados de bancos de dados MySQL usando captura de dados de alterações (CDC) (CDC) para cargas incrementais eficientes.
    • PostgreSQL
    • Ingerir dados de bancos de dados PostgreSQL usando captura de dados de alterações (CDC) (CDC).
    • Microsoft SQL Server
    • Ingerir dados do Microsoft SQL Server usando captura de dados de alterações (CDC) (CDC) ou snapshot completo.

Componentes de conexão

Um conector de banco de dados possui os seguintes componentes:

Componente

Descrição

Conexão

Um objeto protegível do Unity Catalog que armazena detalhes de autenticação para o banco de dados.

Portal de ingestão

Um pipeline que extrai snapshots, logs de alterações e metadados do banco de dados de origem. A execução do gateway em compute clássica é contínua, capturando alterações antes que logs de alterações sejam truncados na origem.

armazenamento temporário

Um volume Unity Catalog que armazena temporariamente os dados antes de serem aplicados à tabela de destino. Isso permite que você execute seu pipeline de ingestão no ritmo que desejar, mesmo enquanto o gateway captura continuamente as alterações. Também auxilia na recuperação de falhas. Ao implantar o gateway, você cria automaticamente um volume de armazenamento temporário e pode personalizar o catálogo e o esquema onde ele reside. Os dados são apagados automaticamente da área de preparação após 30 dias.

pipelinede ingestão

Um pipeline que move os dados do armazenamento temporário para as tabelas de destino. A execução pipeline na compute serverless .

Tabelas de destino

As tabelas onde o pipeline de ingestão grava os dados. Essas são tabelas de transmissão, que são tabelas Delta com suporte adicional para processamento incremental de dados.

Diagrama dos componentes do conector de banco de dados

Status de lançamento

Conector

Status da versão

MySQL

Pré-visualização pública

SQL Server

Disponível em geral

Disponibilidade do recurso

As tabelas a seguir resumem a disponibilidade de recursos para cada conector de banco de dados. Para obter informações adicionais sobre recursos e limitações, consulte a documentação do seu conector específico.

MySQL

Feature

Availability

UI-based pipeline authoring

check marked yes Supported

API-based pipeline authoring

check marked yes Supported

Declarative Automation Bundles

check marked yes Supported

Incremental ingestion

check marked yes Supported

Unity Catalog governance

check marked yes Supported

Orchestration using Databricks Workflows

check marked yes Supported

SCD type 2

x mark no Not supported

API-based column selection and deselection

check marked yes Supported

API-based row filtering

x mark no Not supported

Automated schema evolution: New and deleted columns

check marked yes Supported

Automated schema evolution: Data type changes

x mark no Not supported

Automated schema evolution: Column renames

check marked yes Supported

Treated as a new column (new name) and deleted column (old name).

Automated schema evolution: New tables

check marked yes Supported

If you ingest the entire schema. See the limitations on the number of tables per pipeline.

Maximum number of tables per pipeline

250

PostgreSQL

Feature

Availability

UI-based pipeline authoring

check marked yes Supported

API-based pipeline authoring

check marked yes Supported

Declarative Automation Bundles

check marked yes Supported

Incremental ingestion

check marked yes Supported

Unity Catalog governance

check marked yes Supported

Orchestration using Databricks Workflows

check marked yes Supported

SCD type 2

check marked yes Supported

API-based column selection and deselection

check marked yes Supported

API-based row filtering

check marked yes Supported

Automated schema evolution: New and deleted columns

check marked yes Supported

Automated schema evolution: Data type changes

x mark no Not supported

Automated schema evolution: Column renames

check marked yes Supported

Treated as a new column (new name) and deleted column (old name).

Automated schema evolution: New tables

N/A

Maximum number of tables per pipeline

250

SQL Server

Feature

Availability

UI-based pipeline authoring

check marked yes Supported

API-based pipeline authoring

check marked yes Supported

Declarative Automation Bundles

check marked yes Supported

Incremental ingestion

check marked yes Supported

Unity Catalog governance

check marked yes Supported

Orchestration using Databricks Workflows

check marked yes Supported

SCD type 2

check marked yes Supported

API-based column selection and deselection

check marked yes Supported

API-based row filtering

x mark no Not supported

Automated schema evolution: New and deleted columns

check marked yes Supported

Automated schema evolution: Data type changes

x mark no Not supported

Automated schema evolution: Column renames

No - Requires full refresh.

Automated schema evolution: New tables

check marked yes Supported

If you ingest the entire schema. See the limitations on the number of tables per pipeline.

Maximum number of tables per pipeline

250

Métodos de autenticação

A tabela a seguir lista os métodos de autenticação suportados para cada conector de banco de dados. A Databricks recomenda o uso de OAuth U2M ou OAuth M2M sempre que possível. Se o seu conector suporta OAuth, a autenticação básica é considerada um método legado.

MySQL

Authentication method

Availability

OAuth U2M

x mark no Not supported

OAuth M2M

x mark no Not supported

OAuth (manual refresh token)

x mark no Not supported

Basic authentication (username/password)

check marked yes Supported

Basic authentication (API key)

x mark no Not supported

Basic authentication (service account JSON key)

x mark no Not supported

PostgreSQL

Authentication method

Availability

OAuth U2M

x mark no Not supported

OAuth M2M

x mark no Not supported

OAuth (manual refresh token)

x mark no Not supported

Basic authentication (username/password)

check marked yes Supported

Basic authentication (API key)

x mark no Not supported

Basic authentication (service account JSON key)

x mark no Not supported

SQL Server

Authentication method

Availability

OAuth U2M

x mark no Not supported

OAuth M2M

x mark no Not supported

OAuth (manual refresh token)

x mark no Not supported

Basic authentication (username/password)

check marked yes Supported

Basic authentication (API key)

x mark no Not supported

Basic authentication (service account JSON key)

x mark no Not supported