マネージドデータベースコネクタ

Databricks LakeFlow Connect 、チェンジデータキャプチャ ( CDC ) を使用してリレーショナルデータベースからデータを取り込むためのフルマネージドコネクタを提供します。各コネクタは、データベース内の変更を効率的に追跡し、それらをDeltaテーブルに段階的に適用します。

サポートされているコネクタ

- MySQL
- データチェンジキャプチャ ( CDC ) を使用してMySQLデータベースからデータを取り込み、効率的な増分ロードを実現します。
- PostgreSQL
- チェンジデータキャプチャ ( CDC ) を使用してPostgreSQLデータベースからデータを取り込みます。
- Microsoft SQL Server
- チェンジデータキャプチャ ( CDC ) またはフルスナップショットを使用してMicrosoft SQL Serverからデータを取り込みます。

コネクタ部品

データベースコネクタは、以下のコンポーネントで構成されています。

コンポーネント	説明
接続	データベースの認証情報を格納する、 Unity Catalogセキュリティ保護可能なオブジェクト。
取り込みゲートウェイ	ソースデータベースからスナップショット、変更ログ、メタデータを抽出するパイプライン。ゲートウェイはクラシックコンピュートで実行され、変更ログがソース内で切り詰められる前に変更をキャプチャするために継続的に実行されます。
ステージングストレージ	抽出されたデータを宛先テーブルに適用する前に一時的に保存する Unity Catalog ボリューム。これにより、ゲートウェイが継続的に変更をキャプチャしている場合でも、任意のスケジュールで取り込みパイプラインを実行できます。また、障害の回復にも役立ちます。ゲートウェイをデプロイするときにステージングストレージボリュームを自動的に作成し、その保存場所のカタログとスキーマをカスタマイズできます。データは 30 日後にステージングから自動的に消去されます。
取り込みパイプライン	ステージングストレージから宛先テーブルにデータを移動するパイプライン。パイプラインはサーバレスコンピュートで実行されます。取り込みゲートウェイは継続的に実行されるため、取り込みパイプラインがアイドル状態の場合でも、そのクラシックコンピュートをプロビジョニングし、料金を支払うことになります。ワークロードに合わせてこのコンピュートのサイズを設定します。初期スナップショットがサイズ不足のコンピュートで失敗する可能性があるためです。最小要件とサイズ設定の推奨事項については、コネクタのパイプラインページを参照してください。
宛先テーブル	取り込みパイプラインがデータを書き込むテーブル。これらはストリーミングテーブルであり、増分データ処理の追加サポートを備えた Delta テーブルです。

データベースコネクタのコンポーネント図

ネットワーク接続

インジェストゲートウェイは、 DatabricksワークスペースVPCまたは VNet のクラシックコンピュート上で実行され、ネットワーク経由でソースデータベースにアクセスできる必要があります。

VPN、Azure ExpressRoute、AWS Direct Connect、VPCまたはVNetピアリング、パブリックエンドポイントなど、ゲートウェイがデータベースにアクセスできるネットワークパスはすべてサポートされています。

クラウド間接続に対応しています。例えば、 Azure Databricksは、2つの環境間に適切なネットワーク接続が存在する場合、 AWS Aurora PostgreSQLデータベースからデータを取り込むことができます。

サポートされているコネクタ​

コネクタ部品​

ネットワーク接続​

サポートされているコネクタ

コネクタ部品

ネットワーク接続