クエリベースのコネクタ
プレビュー
この機能は パブリック プレビュー段階です。
LakeFlow Connectのクエリベースのコネクタは、チェンジデータキャプチャ (CDC) の設定を必要とせず、ソースを直接クエリすることで、データベースからデータを取り込みます。binlog や CDC インフラストラクチャに依存するのではなく、最後のパイプライン実行後に新規または更新された行を追跡するために、単調に増加するタイムスタンプまたは整数列であるカーソル列を使用します。
クエリベースのコネクタは、 Unity Catalog接続とレイクハウスフェデレーションを使用してソース データベースに接続し、結果をストリーミング テーブルに書き込みます。
仕組み
各パイプラインの実行時、クエリベースのコネクタはソースデータベースをクエリし、カーソル列の値が前回の実行からのハイウォーターマークより大きいすべての行を取得します。コネクタは、各実行の成功後にカーソル列のハイウォーターマークを保存し、次の実行の下限として使用します。
コネクタはソースに直接問い合わせを行うため、取り込みゲートウェイやステージングボリュームは不要です。パイプラインは、継続的に実行されるのではなく、ユーザーが定義したスケジュールに基づいて実行されます。
クエリベースのコネクタとCDCデータベースコネクタの比較
クエリベースのコネクタは、CDCデータベースコネクタとは以下の点で異なります。
- 取り込みゲートウェイなし :CDCコネクタは、バイナリログイベントをキャプチャするためにゲートウェイを必要とします。クエリベースのコネクタはゲートウェイを使用しません。
- ステージングボリュームなし :CDCコネクタは抽出されたデータをステージングボリュームにバッファリングします。クエリベースのコネクタは、ソースクエリから宛先テーブルへ直接書き込みます。
- 継続的ではなくスケジュール実行 :クエリベースのコネクタはスケジュールに基づいて実行されます。それらは、実行間のすべての中間行状態を捉えるわけではありません。これらは、変更された行の最新の状態のみをキャプチャします。
- より幅広いソース互換性 :適切なカーソル列を持つデータベースであれば、CDCやバイナリログへのアクセスをサポートしていなくても、有効なソースとして使用できます。
トレードオフとして、クエリのパフォーマンスが低下する可能性があり、クエリがソーステーブルに対して直接実行されるため、バイナリログをクエリするCDCコネクタと比較して、ソースデータベースへの負荷が大きくなる可能性があります。ソフト削除の追跡はdeletion_conditionを使用してサポートされています。ベータ版では、完全削除の追跡もサポートされています。どちらもAPIの設定が必要です。
サポートされている摂取方法
クエリベースのコネクタは、複数のデータ取り込み方法をサポートしています。使用するアプローチによって、どの構成が必要かが決まります。
アプローチ | どのように繋がるか | 必須 |
|---|---|---|
外国とのつながりの摂取 | ソースデータベースの認証情報を保存する接続を使用します。コネクタは、接続を利用してソースデータベースに直接クエリを実行します。 |
|
フォーリンカタログの摂取 | alaykハウスフェデレーションデータソースによるフォーリンカタログを使用します。 このコネクタは、ソース データベースに直接接続するのではなく、フォーリンカタログを使用してソース データを読み取ります。 |
|
サポートされているソース
以下のデータベースソースがサポートされています。
外部接続の取り込み ソース :
- Oracle
- テラデータ
- SQL Server
- MySQL
- MariaDB
- PostgreSQL
フォーリンカタログの摂取 ソース :
すべてのレイクハウスフェデレーション データソースは、フォーリンカタログの取り込みを使用してサポートされています。 完全なリストについては、レイクハウスフェデレーションを参照してください。
サポートされているインターフェース
クエリベースのパイプラインを作成するには、Databricks UI または Declarative Automation Bundles を使用できます。
コンピュート要件
クエリベースの取り込みパイプラインは、サーバレスコンピュートでデフォルトで実行されます。クラシックコンピュートデプロイメントは、宣言型オートメーションバンドルまたはAPIを介して、ベータ版でサポートされています。Databricks はサーバレス コンピュートの使用をお勧めします。クエリベースの取り込みパイプラインを作成を参照してください。
サーバレス コンピュートでクエリベースのコネクタを使用するには、コンピュート環境でソース データベースへのネットワーク接続が許可されている必要があります。 レイクハウスフェデレーションの ネットワーキング とネットワーキングの推奨事項を参照してください。
履歴追跡(SCD)モード
クエリベースのコネクタは、宛先テーブルに対して、以下の履歴追跡モード(緩やかに変化するディメンション( SCD )モードとも呼ばれる)をサポートしています。
- SCD_TYPE_1: 宛先テーブルの既存の行を最新のソース行で上書きします。宛先テーブルは履歴を保持しません。
- SCD_TYPE_2 : バージョンメタデータ付きの新しい行を追加することで、行の変更履歴を完全に保持します。履歴追跡を有効にする(SCDタイプ2)を参照してください。
- APPEND_ONLY :取り込まれたすべての行を、マージや上書きを行わずに宛先テーブルに追加します。
スキーマ進化
クエリベースのコネクタはLakeFlow Connectの他の管理コネクタと同じ方法でスキーマ進化を処理します。 「マネージド コネクタはスキーマ進化をどのように処理しますか?」を参照してください。 。