LakeFlow Connectのデータベースコネクタ
Databricks LakeFlow Connect 、チェンジデータキャプチャ ( CDC ) を使用してリレーショナル データベースからデータを取り込むためのフルマネージド コネクタを提供します。 各コネクタは、データベース内の変更を効率的に追跡し、それらをDeltaテーブルに段階的に適用します。
サポートされているコネクタ
-
- MySQL
- データチェンジキャプチャ ( CDC ) を使用してMySQLデータベースからデータを取り込み、効率的な増分ロードを実現します。
-
- PostgreSQL
- チェンジデータキャプチャ ( CDC ) を使用してPostgreSQLデータベースからデータを取り込みます。
-
- Microsoft SQL Server
- チェンジ データ キャプチャ ( CDC ) またはフル スナップショットを使用してMicrosoft SQL Serverからデータを取り込みます。
コネクタ部品
データベースコネクタは、以下のコンポーネントで構成されています。
コンポーネント | 説明 |
|---|---|
接続 | データベースの認証情報を格納する、 Unity Catalogセキュリティ保護可能なオブジェクト。 |
取り込みゲートウェイ | ソースデータベースからスナップショット、変更ログ、メタデータを抽出するパイプライン。ゲートウェイはクラシック コンピュートで実行され、変更ログがソース内で切り詰められる前に変更をキャプチャするために継続的に実行されます。 |
ステージングストレージ | 抽出されたデータを宛先テーブルに適用する前に一時的に保存する Unity Catalog ボリューム。これにより、ゲートウェイが継続的に変更をキャプチャしている場合でも、任意のスケジュールで取り込み パイプラインを実行できます。また、障害の回復にも役立ちます。ゲートウェイをデプロイするときにステージングストレージボリュームを自動的に作成し、その保存場所のカタログとスキーマをカスタマイズできます。データは 30 日後にステージングから自動的に消去されます。 |
取り込みパイプライン | ステージングストレージから宛先テーブルにデータを移動するパイプライン。この取り込みパイプラインはサーバレスコンピュートで実行されます。 |
宛先テーブル | 取り込み パイプラインがデータを書き込むテーブル。これらは ストリーミングテーブルであり、増分データ処理の追加サポートを備えた Delta テーブルです。 |

ネットワーク接続
インジェスト ゲートウェイは、 DatabricksワークスペースVPCまたは VNet のクラシック コンピュート上で実行され、ネットワーク経由でソース データベースにアクセスできる必要があります。
VPN、Azure ExpressRoute、AWS Direct Connect、VPCまたはVNetピアリング、パブリックエンドポイントなど、ゲートウェイがデータベースにアクセスできるネットワークパスはすべてサポートされています。
クラウド間接続に対応しています。例えば、 Azure Databricksは、2つの環境間に適切なネットワーク接続が存在する場合、 AWS Aurora PostgreSQLデータベースからデータを取り込むことができます。
リリース状況
コネクター | リリース状況 |
|---|---|
MySQL | パブリックプレビュー |
SQL Server | 一般的に入手可能 |
機能の利用可能性
以下の表は、各データベースコネクタの機能の利用可能性をまとめたものです。その他の機能や制限事項については、ご使用のコネクタに関するドキュメントを参照してください。
MySQL
Feature | Availability |
|---|---|
UI-based pipeline authoring |
|
API-based pipeline authoring |
|
Declarative Automation Bundles |
|
Incremental ingestion |
|
Unity Catalog governance |
|
Orchestration using Databricks Workflows |
|
SCD type 2 |
|
API-based column selection and deselection |
|
API-based row filtering |
|
Automated schema evolution: New and deleted columns |
|
Automated schema evolution: Data type changes |
|
Automated schema evolution: Column renames |
Treated as a new column (new name) and deleted column (old name). |
Automated schema evolution: New tables |
If you ingest the entire schema. See the limitations on the number of tables per pipeline. |
Maximum number of tables per pipeline | 250 |
PostgreSQL
Feature | Availability |
|---|---|
UI-based pipeline authoring |
|
API-based pipeline authoring |
|
Declarative Automation Bundles |
|
Incremental ingestion |
|
Unity Catalog governance |
|
Orchestration using Databricks Workflows |
|
SCD type 2 |
|
API-based column selection and deselection |
|
API-based row filtering |
|
Automated schema evolution: New and deleted columns |
|
Automated schema evolution: Data type changes |
|
Automated schema evolution: Column renames |
Treated as a new column (new name) and deleted column (old name). |
Automated schema evolution: New tables | N/A |
Maximum number of tables per pipeline | 250 |
SQL Server
Feature | Availability |
|---|---|
UI-based pipeline authoring |
|
API-based pipeline authoring |
|
Declarative Automation Bundles |
|
Incremental ingestion |
|
Unity Catalog governance |
|
Orchestration using Databricks Workflows |
|
SCD type 2 |
|
API-based column selection and deselection |
|
API-based row filtering |
|
Automated schema evolution: New and deleted columns |
|
Automated schema evolution: Data type changes |
|
Automated schema evolution: Column renames | No - Requires full refresh. |
Automated schema evolution: New tables |
If you ingest the entire schema. See the limitations on the number of tables per pipeline. |
Maximum number of tables per pipeline | 250 |
認証方法
以下の表は、各データベースコネクタでサポートされている認証方法の一覧です。Databricksは、可能な限りOAuth U2MまたはOAuth M2Mを使用することを推奨しています。コネクタがOAuthをサポートしている場合、基本認証は旧式の認証方法とみなされます。
MySQL
Authentication method | Availability |
|---|---|
OAuth U2M |
|
OAuth M2M |
|
OAuth (manual refresh token) |
|
Basic authentication (username/password) |
|
Basic authentication (API key) |
|
Basic authentication (service account JSON key) |
|
PostgreSQL
Authentication method | Availability |
|---|---|
OAuth U2M |
|
OAuth M2M |
|
OAuth (manual refresh token) |
|
Basic authentication (username/password) |
|
Basic authentication (API key) |
|
Basic authentication (service account JSON key) |
|
SQL Server
Authentication method | Availability |
|---|---|
OAuth U2M |
|
OAuth M2M |
|
OAuth (manual refresh token) |
|
Basic authentication (username/password) |
|
Basic authentication (API key) |
|
Basic authentication (service account JSON key) |
|