メインコンテンツまでスキップ

クエリベースのコネクタ

備考

プレビュー

この機能は パブリック プレビュー段階です。

LakeFlow Connectのクエリベースのコネクタは、変更データキャプチャ ( CDC ) 設定を必要とせずに、ソースを直接クエリすることによってデータベースからデータを取り込みます。 バイナリログやCDCインフラストラクチャに頼る代わりに、カーソル列(単調増加するタイムスタンプまたは整数列)を使用して、前回のパイプライン実行以降に新規または更新された行を追跡します。

クエリベースのコネクタは、 Unity Catalog接続とレイクハウスフェデレーションを使用してソース データベースに接続し、結果をストリーミング テーブルに書き込みます。

仕組み

パイプラインが実行されるたびに、クエリベースのコネクタがソースデータベースにクエリを実行し、カーソル列の値が前回の実行で記録された値よりも大きいすべての行を取得します。コネクタは、各実行が正常に完了するたびにカーソル列の最高値を保存し、それを次回の実行時の下限値として使用します。

コネクタはソースに直接問い合わせを行うため、取り込みゲートウェイやステージングボリュームは不要です。パイプラインは、継続的に実行されるのではなく、ユーザーが定義したスケジュールに基づいて実行されます。

クエリベースのコネクタとCDCデータベースコネクタの比較

クエリベースのコネクタは、CDCデータベースコネクタとは以下の点で異なります。

  • 取り込みゲートウェイなし :CDCコネクタは、バイナリログイベントをキャプチャするためにゲートウェイを必要とします。クエリベースのコネクタはゲートウェイを使用しません。
  • ステージングボリュームなし :CDCコネクタは抽出されたデータをステージングボリュームにバッファリングします。クエリベースのコネクタは、ソースクエリから宛先テーブルへ直接書き込みます。
  • 継続的ではなくスケジュール実行 :クエリベースのコネクタはスケジュールに基づいて実行されます。それらは、実行間のすべての中間行状態を捉えるわけではありません。これらは、変更された行の最新の状態のみをキャプチャします。
  • より幅広いソース互換性 :適切なカーソル列を持つデータベースであれば、CDCやバイナリログへのアクセスをサポートしていなくても、有効なソースとして使用できます。

トレードオフとして、クエリのパフォーマンスが低下する可能性があり、クエリがソーステーブルに対して直接実行されるため、バイナリログをクエリするCDCコネクタと比較して、ソースデータベースへの負荷が大きくなる可能性があります。ソフト削除の追跡はdeletion_conditionを使用してサポートされています。ベータ版では、完全削除の追跡もサポートされています。どちらもAPIの設定が必要です。

サポートされている摂取方法

クエリベースのコネクタは、複数のデータ取り込み方法をサポートしています。使用するアプローチによって、どの構成が必要かが決まります。

アプローチ

どのように繋がるか

必須

外国とのつながりの摂取

ソースデータベースの認証情報を保存する接続を使用します。コネクタは、接続を利用してソースデータベースに直接クエリを実行します。

connection_namesource_catalogsource_schemasource_tablecursor_column

フォーリンカタログの摂取

alaykハウスフェデレーションデータソースによるフォーリンカタログを使用します。 このコネクタは、ソース データベースに直接接続するのではなく、フォーリンカタログを使用してソース データを読み取ります。

ingest_from_uc_foreign_catalog: truecursor_columnsprimary_keysAPPEND_ONLYモードを使用しない場合は必須)

サポートされているソース

以下のデータベースソースがサポートされています。

外部接続の取り込み ソース :

  • Oracle
  • テラデータ
  • SQL Server
  • MySQL
  • MariaDB
  • PostgreSQL

フォーリンカタログの摂取 ソース :

すべてのレイクハウスフェデレーション データソースは、フォーリンカタログの取り込みを使用してサポートされています。 完全なリストについては、レイクハウスフェデレーションを参照してください。

サポートされているインターフェース

クエリベースのパイプラインを作成するには、Databricks UI または Declarative Automation Bundles を使用できます。

コンピュート要件

無事にサーバレスコンピュート上でクエリベースのインジェストパイプライン実行。 クラシック コンピュートはベータ版でサポートされていますが、 APIsのみを使用します。 Databricksではサーバレス コンピュートの使用を推奨しています。

サーバレス コンピュートでクエリベースのコネクタを使用するには、コンピュート環境でソース データベースへのネットワーク接続が許可されている必要があります。 レイクハウスフェデレーションの ネットワーキング とネットワーキングの推奨事項を参照してください。

履歴追跡(SCD)モード

クエリベースのコネクタは、宛先テーブルに対して、以下の履歴追跡モード(緩やかに変化するディメンション( SCD )モードとも呼ばれる)をサポートしています。

  • SCD_TYPE_1 : 宛先テーブルの既存の行を最新のソース行で上書きします。歴史は何も保存されていない。
  • SCD_TYPE_2 : バージョンメタデータ付きの新しい行を追加することで、行の変更履歴を完全に保持します。履歴追跡を有効にする(SCDタイプ2)を参照してください。
  • APPEND_ONLY :取り込まれたすべての行を、マージや上書きを行わずに宛先テーブルに追加します。

スキーマ進化

クエリベースのコネクタはLakeFlow Connectの他の管理コネクタと同じ方法でスキーマ進化を処理します。 「マネージド コネクタはスキーマ進化をどのように処理しますか?」を参照してください。 。