スナップショットフローから自動 CDC を作成する

create_auto_cdc_from_snapshot_flow関数は、 Lakeflow Spark宣言型パイプライン変更データキャプチャ ( CDC ) 機能を使用してデータベーススナップショットからのソースデータを処理するフローを作成します。「CDC はAUTO CDC FROM SNAPSHOT API でどのように実装されますか?」を参照してください。

注記

この関数は以前の関数apply_changes_from_snapshot()を置き換えます。2 つの関数は同じシグネチャを持ちます。Databricks では、新しい名前を使用するように更新することをお勧めします。

重要

この操作にはターゲットストリーミングテーブルが必要です。必要なターゲットテーブルを作成するには、 create_streaming_table()関数を使用できます。同じストリーミングテーブルをcreate_auto_cdc_from_snapshot_flow()とcreate_auto_cdc_flow()の両方でターゲットにすることはできません。

構文

Python
from pyspark import pipelines as dp

dp.create_auto_cdc_from_snapshot_flow(
  target = "<target-table>",
  source = Any,
  keys = ["key1", "key2", "keyN"],
  stored_as_scd_type = <type>,
  track_history_column_list = None,
  track_history_except_column_list = None
)

注記

AUTO CDC FROM SNAPSHOT処理の場合、デフォルトの動作では、同じキーを持つ一致するレコードがターゲットに存在しない場合に新しい行を挿入します。一致するレコードが存在する場合は、行のいずれかの値が変更された場合にのみ更新されます。ターゲットには存在するがソースには存在しないキーを持つ行は削除されます。

スナップショットを使用したCDC処理の詳細については、「AUTO CDC APIs : パイプラインを使用した変更データキャプチャの簡素化」を参照してください。 create_auto_cdc_from_snapshot_flow()関数の使用例については、定期的なスナップショットの取り込みと履歴スナップショットの取り込みの例を参照してください。

パラメーター

パラメーター	Type	説明
`target`	`str`	必須。更新するテーブルの名前。`create_auto_cdc_from_snapshot_flow()`関数を実行する前に、 create_streaming_table()関数を使用してターゲットテーブルを作成できます。
`source`	`str` または `lambda function`	必須。定期的にスナップショットを作成するテーブルまたはビューの名前、または処理するスナップショットデータフレームとスナップショットバージョンを返す Python ラムダ関数。 `source`引数の実装を参照してください。
`keys`	`list`	必須。ソースデータ内の行を一意に識別する列または列の組み合わせ。これは、どのCDCイベントがターゲットテーブル内の特定のレコードに適用されるかを識別するために使用されます。次のいずれかを指定できます。文字列のリスト： `["userId", "orderId"]` Spark SQL `col()`関数のリスト: `[col("userId"), col("orderId"]` 。 `col()`関数の引数に修飾子を含めることはできません。例えば、`col(userId)`は使えますが、`col(source.userId)`は使えません。
`stored_as_scd_type`	`str` または `int`	レコードを SCD タイプ 1 として保存するか、SCD タイプ 2 として保存するかを指定します。SCD タイプ 1 の場合は`1` 、SCD タイプ 2 の場合は`2`に設定します。デフォルトは SCD タイプ 1 です。
`track_history_column_list` または `track_history_except_column_list`	`list`	ターゲットテーブル内の履歴を追跡する出力列のサブセット。追跡する列の完全なリストを指定するには、 `track_history_column_list`を使用します。追跡から除外する列を指定するには、 `track_history_except_column_list`を使用します。どちらの値も、文字列のリストまたは Spark SQL `col()`関数として宣言できます。 `track_history_column_list = ["userId", "name", "city"]` `track_history_column_list = [col("userId"), col("name"), col("city")]` `track_history_except_column_list = ["operation", "sequenceNum"]` `track_history_except_column_list = [col("operation"), col("sequenceNum")` `col()`関数の引数には修飾子を含めることはできません。たとえば、 `col(userId)`は使用できますが、 `col(source.userId)`は使用できません。デフォルトでは、関数に`track_history_column_list`または`track_history_except_column_list`引数が渡されない場合、ターゲットテーブルのすべての列が含まれます。

`source`引数を実装する

create_auto_cdc_from_snapshot_flow() 関数には source 引数が含まれています。履歴スナップショットを処理する場合、引数は、処理するスナップショットデータを含むとスナップショットバージョンという sourcePython2 つの値を関数に返すラムダ関数である必要があります。create_auto_cdc_from_snapshot_flow()Pythonデータフレーム

以下はラムダ関数のシグネチャです。

Python
lambda Any => Optional[(DataFrame, Any)]

ラムダ関数への引数は、最後に処理されたスナップショットバージョンです。
ラムダ関数の戻り値が None または 2 つの値のタプルである: タプルの最初の値は、処理するスナップショットを含むデータフレームです。タプルの 2 番目の値は、スナップショットの論理順序を表すスナップショットバージョンです。

ラムダ関数を実装して呼び出す例:

Python
def next_snapshot_and_version(latest_snapshot_version: Optional[int]) -> Tuple[DataFrame, Optional[int]]:
 if latest_snapshot_version is None:
   return (spark.read.load("filename.csv"), 1)
 else:
   return None

create_auto_cdc_from_snapshot_flow(
  # ...
  source = next_snapshot_and_version,
  # ...
)

Lakeflow Spark宣言型パイプラインランタイムは、 create_auto_cdc_from_snapshot_flow()関数を含むパイプラインがトリガーされるたびに次のステップを実行します。

next_snapshot_and_version 関数を実行して、次のスナップショットデータフレームと対応するスナップショットバージョンを読み込みます。
データフレームが返されない場合、実行は終了し、パイプラインの更新は完了としてマークされます。
新しいスナップショットの変更を検出し、それをターゲットテーブルに段階的に適用します。
ステップ #1 に戻り、次のスナップショットとそのバージョンをロードします。

構文​

パラメーター​

source引数を実装する​

構文

パラメーター

`source`引数を実装する