メインコンテンツまでスキップ

LakeFlow Connectのデータベースコネクタ

Databricks LakeFlow Connect 、チェンジデータキャプチャ ( CDC ) を使用してリレーショナル データベースからデータを取り込むためのフルマネージド コネクタを提供します。 各コネクタは、データベース内の変更を効率的に追跡し、それらをDeltaテーブルに段階的に適用します。

サポートされているコネクタ

    • MySQL
    • データチェンジキャプチャ ( CDC ) を使用してMySQLデータベースからデータを取り込み、効率的な増分ロードを実現します。
    • PostgreSQL
    • チェンジデータキャプチャ ( CDC ) を使用してPostgreSQLデータベースからデータを取り込みます。
    • Microsoft SQL Server
    • チェンジ データ キャプチャ ( CDC ) またはフル スナップショットを使用してMicrosoft SQL Serverからデータを取り込みます。

コネクタ部品

データベースコネクタは、以下のコンポーネントで構成されています。

コンポーネント

説明

接続

データベースの認証情報を格納する、 Unity Catalogセキュリティ保護可能なオブジェクト。

取り込みゲートウェイ

ソースデータベースからスナップショット、変更ログ、メタデータを抽出するパイプライン。ゲートウェイはクラシック コンピュートで実行され、変更ログがソース内で切り詰められる前に変更をキャプチャするために継続的に実行されます。

ステージングストレージ

抽出されたデータを宛先テーブルに適用する前に一時的に保存する Unity Catalog ボリューム。これにより、ゲートウェイが継続的に変更をキャプチャしている場合でも、任意のスケジュールで取り込み パイプラインを実行できます。また、障害の回復にも役立ちます。ゲートウェイをデプロイするときにステージングストレージボリュームを自動的に作成し、その保存場所のカタログとスキーマをカスタマイズできます。データは 30 日後にステージングから自動的に消去されます。

取り込みパイプライン

ステージングストレージから宛先テーブルにデータを移動するパイプライン。この取り込みパイプラインはサーバレスコンピュートで実行されます。

宛先テーブル

取り込み パイプラインがデータを書き込むテーブル。これらは ストリーミングテーブルであり、増分データ処理の追加サポートを備えた Delta テーブルです。

データベースコネクタのコンポーネント図

ネットワーク接続

インジェスト ゲートウェイは、 DatabricksワークスペースVPCまたは VNet のクラシック コンピュート上で実行され、ネットワーク経由でソース データベースにアクセスできる必要があります。

VPN、Azure ExpressRoute、AWS Direct Connect、VPCまたはVNetピアリング、パブリックエンドポイントなど、ゲートウェイがデータベースにアクセスできるネットワークパスはすべてサポートされています。

クラウド間接続に対応しています。例えば、 Azure Databricksは、2つの環境間に適切なネットワーク接続が存在する場合、 AWS Aurora PostgreSQLデータベースからデータを取り込むことができます。

リリース状況

コネクター

リリース状況

MySQL

パブリックプレビュー

SQL Server

一般的に入手可能

機能の利用可能性

以下の表は、各データベースコネクタの機能の利用可能性をまとめたものです。その他の機能や制限事項については、ご使用のコネクタに関するドキュメントを参照してください。

MySQL

Feature

Availability

UI-based pipeline authoring

check marked yes Supported

API-based pipeline authoring

check marked yes Supported

Declarative Automation Bundles

check marked yes Supported

Incremental ingestion

check marked yes Supported

Unity Catalog governance

check marked yes Supported

Orchestration using Databricks Workflows

check marked yes Supported

SCD type 2

x mark no Not supported

API-based column selection and deselection

check marked yes Supported

API-based row filtering

x mark no Not supported

Automated schema evolution: New and deleted columns

check marked yes Supported

Automated schema evolution: Data type changes

x mark no Not supported

Automated schema evolution: Column renames

check marked yes Supported

Treated as a new column (new name) and deleted column (old name).

Automated schema evolution: New tables

check marked yes Supported

If you ingest the entire schema. See the limitations on the number of tables per pipeline.

Maximum number of tables per pipeline

250

PostgreSQL

Feature

Availability

UI-based pipeline authoring

check marked yes Supported

API-based pipeline authoring

check marked yes Supported

Declarative Automation Bundles

check marked yes Supported

Incremental ingestion

check marked yes Supported

Unity Catalog governance

check marked yes Supported

Orchestration using Databricks Workflows

check marked yes Supported

SCD type 2

check marked yes Supported

API-based column selection and deselection

check marked yes Supported

API-based row filtering

check marked yes Supported

Automated schema evolution: New and deleted columns

check marked yes Supported

Automated schema evolution: Data type changes

x mark no Not supported

Automated schema evolution: Column renames

check marked yes Supported

Treated as a new column (new name) and deleted column (old name).

Automated schema evolution: New tables

N/A

Maximum number of tables per pipeline

250

SQL Server

Feature

Availability

UI-based pipeline authoring

check marked yes Supported

API-based pipeline authoring

check marked yes Supported

Declarative Automation Bundles

check marked yes Supported

Incremental ingestion

check marked yes Supported

Unity Catalog governance

check marked yes Supported

Orchestration using Databricks Workflows

check marked yes Supported

SCD type 2

check marked yes Supported

API-based column selection and deselection

check marked yes Supported

API-based row filtering

x mark no Not supported

Automated schema evolution: New and deleted columns

check marked yes Supported

Automated schema evolution: Data type changes

x mark no Not supported

Automated schema evolution: Column renames

No - Requires full refresh.

Automated schema evolution: New tables

check marked yes Supported

If you ingest the entire schema. See the limitations on the number of tables per pipeline.

Maximum number of tables per pipeline

250

認証方法

以下の表は、各データベースコネクタでサポートされている認証方法の一覧です。Databricksは、可能な限りOAuth U2MまたはOAuth M2Mを使用することを推奨しています。コネクタがOAuthをサポートしている場合、基本認証は旧式の認証方法とみなされます。

MySQL

Authentication method

Availability

OAuth U2M

x mark no Not supported

OAuth M2M

x mark no Not supported

OAuth (manual refresh token)

x mark no Not supported

Basic authentication (username/password)

check marked yes Supported

Basic authentication (API key)

x mark no Not supported

Basic authentication (service account JSON key)

x mark no Not supported

PostgreSQL

Authentication method

Availability

OAuth U2M

x mark no Not supported

OAuth M2M

x mark no Not supported

OAuth (manual refresh token)

x mark no Not supported

Basic authentication (username/password)

check marked yes Supported

Basic authentication (API key)

x mark no Not supported

Basic authentication (service account JSON key)

x mark no Not supported

SQL Server

Authentication method

Availability

OAuth U2M

x mark no Not supported

OAuth M2M

x mark no Not supported

OAuth (manual refresh token)

x mark no Not supported

Basic authentication (username/password)

check marked yes Supported

Basic authentication (API key)

x mark no Not supported

Basic authentication (service account JSON key)

x mark no Not supported