外部RDBMSテーブルをレプリケートする： `AUTO CDC`

このページでは、パイプラインでAUTO CDC API を使用して、外部のリレーショナルデータベース管理システム (RDBMS) から Databricks にテーブルを複製する方法について説明します。学習内容:

ソースを設定するための一般的なパターン。
onceフローを使用して、既存のデータの 1 回限りの完全コピーを実行する方法。
changeフローを使用して新しい変更を継続的に取り込む方法。

このパターンは、緩やかに変化するディメンション ( SCD ) テーブルを構築したり、ターゲットテーブルを外部のレコードシステムと同期させたりするのに最適です。

始める前に

このガイドでは、ソースから次のデータセットにアクセスできることを前提としています。

クラウドストレージ内のソーステーブルの完全なスナップショット。このデータセットは初期ロードに使用されます。
同じクラウドストレージの場所に入力される継続的な変更フィード (たとえば、Debezium、Kafka、またはログベースの CDC を使用)。このフィードは進行中のAUTO CDCプロセスへの入力です。

ソースビューを設定する

まず、クラウドストレージパスorders_snapshot_pathからrdbms_ordersターゲットテーブルにデータを入力する 2 つのソースビューを定義します。どちらも、クラウドストレージ内の生データに対するストリーミングビューとして構築されます。ビューを使用すると、 AUTO CDCプロセスで使用する前にデータを書き込む必要がないため、効率が向上します。

最初のソースビューは完全なスナップショットです ( full_orders_snapshot )
2 番目は継続的な変更フィード ( rdbms_orders_change_feed ) です。

このガイドの例ではクラウドストレージをソースとして使用していますが、ストリーミングテーブルでサポートされている任意のソースを使用できます。

`full_orders_snapshot()`

このステップでは、注文データの最初の完全なスナップショットを読み取るビューを含むパイプラインを作成します。

Python
SQL

次の Python の例:

Auto Loader （ format("cloudFiles") ）でspark.readStreamを使用します
右によって定義されたディレクトリからJSONファイルを読み込む： orders_snapshot_path
パス内にすでに存在する履歴データが確実に処理されるように、 includeExistingFilesをtrueに設定します。
スキーマを自動的に推測するには、 inferColumnTypesをtrueに設定します
次の列をすべて返します .select("\*")

Python
@dp.view()
def full_orders_snapshot():
    return (
        spark.readStream
        .format("cloudFiles")
        .option("cloudFiles.format", "json")
        .option("cloudFiles.includeExistingFiles", "true")
        .option("cloudFiles.inferColumnTypes", "true")
        .load(orders_snapshot_path)
        .select("*")
    )

次の SQL の例では、オプションを文字列のキーと値のペアのマップとして渡します。orders_snapshot_path SQL変数として使用できる必要があります (たとえば、パイプラインパラメーターを使用して定義されるか、手動で補間されます)。

SQL
CREATE OR REFRESH VIEW full_orders_snapshot
AS SELECT *
FROM STREAM read_files("${orders_snapshot_path}", "json", map(
  "cloudFiles.includeExistingFiles", "true",
  "cloudFiles.inferColumnTypes", "true"
));

`rdbms_orders_change_feed()`

このステップでは、増分変更データ (たとえば、 CDCログまたは変更テーブルから) を読み取る 2 番目のビューを作成します。これはorders_cdc_pathから読み取り、CDC スタイルの JSON ファイルがこのパスに定期的にドロップされることを前提としています。

Python
SQL

Python
@dp.view()
def rdbms_orders_change_feed():
return (
spark.readStream
.format("cloudFiles")
.option("cloudFiles.format", "json")
.option("cloudFiles.includeExistingFiles", "true")
.option("cloudFiles.inferColumnTypes", "true")
.load(orders_cdc_path)

次の SQL の例では、 ${orders_cdc_path}は変数であり、パイプライン設定で値を設定するか、コードで変数を明示的に設定することによって補間できます。

SQL
CREATE OR REFRESH VIEW rdbms_orders_change_feed
AS SELECT *
FROM STREAM read_files("${orders_cdc_path}", "json", map(
"cloudFiles.includeExistingFiles", "true",
"cloudFiles.inferColumnTypes", "true"
));

初回ハイドレーション(1回のみのフロー)

ソースが設定されたので、 AUTO CDCロジックは両方のソースをターゲットストリーミングテーブルにマージします。まず、 ONCE=TRUEで 1 回限りのAUTO CDCフローを使用して、 RDBMSテーブルの完全な内容をストリーミングテーブルにコピーします。これにより、今後の更新で履歴データを再生することなく、ターゲットテーブルに履歴データが準備されます。

Python
SQL

Python
from pyspark import pipelines as dp

# Step 1: Create the target streaming table

dp.create_streaming_table("rdbms_orders")

# Step 2: Once Flow — Load initial snapshot of full RDBMS table

dp.create_auto_cdc_flow(
  flow_name = "initial_load_orders",
  once = True,  # one-time load
  target = "rdbms_orders",
  source = "full_orders_snapshot",  # e.g., ingested from JDBC into bronze
  keys = ["order_id"],
  sequence_by = "timestamp",
  stored_as_scd_type = "1"
)

SQL

-- Step 1: Create the target streaming table
CREATE OR REFRESH STREAMING TABLE rdbms_orders;

-- Step 2: Once Flow for initial snapshot
CREATE FLOW rdbms_orders_hydrate
AS AUTO CDC ONCE INTO rdbms_orders
FROM stream(full_orders_snapshot)
KEYS (order_id)
SEQUENCE BY timestamp
STORED AS SCD TYPE 1;

onceフローは 1 回だけ実行されます。パイプラインの作成後にfull_orders_snapshotに追加された新しいファイルは無視されます。

重要

rdbms_ordersストリーミングテーブルで完全な更新を実行し、 onceフローを再実行します。クラウドストレージ内の初期スナップショットデータが削除されている場合、データが失われます。

連続変更フィード（変更フロー）

最初のスナップショットのロード後、別のAUTO CDCフローを使用して、RDBMS の CDC フィードからの変更を継続的に取り込みます。これにより、 rdbms_ordersテーブルは挿入、更新、削除によって最新の状態に保たれます。

Python
SQL

Python
from pyspark import pipelines as dp

# Step 3: Change Flow — Ingest ongoing CDC stream from source system

dp.create_auto_cdc_flow(
flow_name = "orders_incremental_cdc",
target = "rdbms_orders",
source = "rdbms_orders_change_feed", # e.g., ingested from Kafka or Debezium
keys = ["order_id"],
sequence_by = "timestamp",
stored_as_scd_type = "1"
)

SQL
-- Step 3: Continuous CDC ingestion
CREATE FLOW rdbms_orders_continuous
AS AUTO CDC INTO rdbms_orders
FROM stream(rdbms_orders_change_feed)
KEYS (order_id)
SEQUENCE BY timestamp
STORED AS SCD TYPE 1;

考慮事項

バックフィルの冪等性	`once`フローは、ターゲットテーブルが完全に更新された場合にのみ再実行されます。
複数のフロー	複数の変更フローを使用して、修正、遅れて到着したデータ、または代替フィードなどをマージできますが、すべてでスキーマとキーを共有する必要があります。
フルリフレッシュ	`rdbms_orders`ストリーミングテーブルを完全に更新し、 `once`フローを再実行します。初期のクラウドストレージの場所で初期のスナップショットデータが削除されている場合、これによってデータが失われる可能性があります。
フロー実行順序	フローの実行順序は重要ではありません。最終結果は同じです。

その他のリソース

Lakeflowコネクトにおけるフルマネージド SQL Server コネクタ

始める前に​

ソースビューを設定する​

full_orders_snapshot()​

rdbms_orders_change_feed()​

初回ハイドレーション(1回のみのフロー)​

連続変更フィード（変更フロー）​

考慮事項​

その他のリソース​