Lakeflow Spark宣言型パイプラインフローを使用してデータを段階的にロードして処理する

データは フロー を通じてパイプラインで処理されます。各フローは クエリ と、通常は ターゲット で構成されます。フローはクエリをバッチとして、またはターゲットへのデータストリームとして増分的に処理します。フローは、 Lakeflow Spark宣言型パイプラインのパイプライン内に存在します。

通常、フローは、ターゲットを更新するパイプラインでクエリを作成するときに自動的に定義されますが、複数のソースから単一のターゲットに追加するなど、より複雑な処理のために追加のフローを明示的に定義することもできます。

アップデート

フローは、それを定義するパイプラインが更新されるたびに実行されます。フローは、利用可能な最新のデータを使用してテーブルを作成または更新します。フローのタイプとデータの変更の状態に応じて、更新では、新しいレコードのみを処理する増分更新が実行されるか、データソースからのすべてのレコードが再処理される完全更新が実行されます。

パイプライン更新の詳細については、「パイプライン更新の実行」を参照してください。
更新のスケジュールとトリガーの詳細については、「トリガーモードと連続パイプラインモード」を参照してください。

デフォルトフローを作成する

パイプラインを作成するときは、通常、それをサポートするクエリとともにテーブルまたはビューを定義します。たとえば、このSQLクエリでは、 customers_bronzeというテーブルから読み取ることで、 customers_silverというストリーミングテーブルを作成します。

SQL
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

同じストリーミングテーブルをPythonで作成することもできます。 Pythonでは、データフレームを返すクエリ関数を作成し、 Lakeflow Spark宣言型パイプライン機能を追加するデコレーターを使用してパイプラインを使用します。

Python
from pyspark import pipelines as dp

@dp.table()
def customers_silver():
  return spark.readStream.table("customers_bronze")

この例では、 ストリーミングテーブル を作成しました。 SQLとPythonの両方で同様の構文を使用してマテリアライズドビューを作成することもできます。詳細については、ストリーミングテーブルとマテリアライズドビューを参照してください。

この例では、ストリーミングテーブルとともに、当然のフローを作成します。ストリーミングテーブルの確実なフローは追加フローであり、トリガーごとに新しい行を追加します。これはパイプラインを使用する最も一般的な方法です。フローとターゲットを 1 つのステップで作成します。このスタイルを使用して、データを取り込んだり、データを変換したりできます。

追加フローは、単一のターゲットを更新するために複数のストリーミングソースからデータを読み取る必要がある処理もサポートします。たとえば、既存のストリーミングテーブルとフローがあり、この既存のストリーミングテーブルに書き込む新しいストリーミングソースを追加する場合、追加フロー機能を使用できます。

複数のフローを使用して単一のターゲットに書き込む

前の例では、単一のステップでフローとストリーミングテーブルを作成しました。以前に作成したテーブルに対してもフローを作成することができます。この例では、テーブルの作成とそれに関連するフローを別々のステップで確認できます。このコードは、ストリーミングテーブルとフローに同じ名前を使用することを含め、当然のフローを作成する場合と同じ結果になります。

Python
SQL

Python
from pyspark import pipelines as dp

# create streaming table
dp.create_streaming_table("customers_silver")

# add a flow
@dp.append_flow(
  target = "customers_silver")
def customer_silver():
  return spark.readStream.table("customers_bronze")

SQL
-- create a streaming table
CREATE OR REFRESH STREAMING TABLE customers_silver;

-- add a flow
CREATE FLOW customers_silver
AS INSERT INTO customers_silver BY NAME
SELECT * FROM STREAM(customers_bronze);

ターゲットから独立してフローを作成すると、同じターゲットにデータを追加する複数のフローを作成することもできます。

Pythonインターフェースの@dp.append_flowデコレータまたはSQLインターフェースのCREATE FLOW...INSERT INTO句を使用して、新しいフローを作成します。たとえば、複数のストリーミングソースからストリーミングテーブルをターゲットにします。次のようなタスクを処理する場合は、追加フローを使用します。

完全な更新を必要とせずに既存のストリーミングテーブルにデータを追加するストリーミングソースを追加します。たとえば、事業を展開しているすべての地域の地域データを結合したテーブルがあるとします。新しいリージョンが展開されると、完全な更新を実行せずに新しいリージョンのデータをテーブルに追加できます。既存のストリーミングテーブルにストリーミングソースを追加する例については、「例: 複数のKafkaトピックからストリーミングテーブルに書き込む」を参照してください。
欠落しているヒストリカルデータを追加 (バックフィル) して、ストリーミングテーブルを更新します。 INSERT INTO ONCE構文を使用して、1 回実行される履歴バックフィル追加を作成できます。たとえば、 Apache Kafkaトピックによって書き込まれる既存のストリーミングテーブルがあるとします。また、ヒストリカルデータはテーブルに保存されており、ストリーミングテーブルに 1 回だけ挿入する必要がありますが、データを挿入する前に複雑な集計の実行が処理に含まれるため、データをストリーミングすることはできません。バックフィルの例については、「パイプラインを使用したヒストリカルデータのバックフィル」を参照してください。
クエリでUNION句を使用する代わりに、複数のソースからのデータを結合し、単一のストリーミングテーブルに書き込みます。 UNIONの代わりに追加フロー処理を使用すると、完全なリフレッシュ更新を実行せずにターゲットテーブルを増分的に更新できます。この方法で実行されるユニオンの例については、「例: UNIONの代わりに追加フロー処理を使用する」を参照してください。

追加フロー処理によって出力されるレコードのターゲットは、既存のテーブルまたは新しいテーブルにすることができます。Python クエリの場合は、 create_streaming_table()関数を使用してターゲットテーブルを作成します。

次の例では、同じターゲットに 2 つのフローを追加し、2 つのソーステーブルの結合を作成します。

Python
SQL

Python
from pyspark import pipelines as dp

# create a streaming table
dp.create_streaming_table("customers_us")

# add the first append flow
@dp.append_flow(target = "customers_us")
def append1():
  return spark.readStream.table("customers_us_west")

# add the second append flow
@dp.append_flow(target = "customers_us")
def append2():
  return spark.readStream.table("customers_us_east")

SQL
-- create a streaming table
CREATE OR REFRESH STREAMING TABLE customers_us;

-- add the first append flow
CREATE FLOW append1
AS INSERT INTO customers_us BY NAME
SELECT * FROM STREAM(customers_us_west);

-- add the second append flow
CREATE FLOW append2
AS INSERT INTO customers_us BY NAME
SELECT * FROM STREAM(customers_us_east);

重要

エクスペクテーションを含むデータ品質制約を定義する必要がある場合は、create_streaming_table() 関数の一部としてターゲットテーブルまたは既存のテーブル定義にエクスペクテーションを定義してください。 @append_flow の定義で期待を定義することはできません。
フローは フロー名 で識別され、この名前はストリーミングチェックポイントを識別するために使用されます。チェックポイントを識別するためにフロー名を使用するということは、以下のことを意味します。
- パイプライン内の既存のフローの名前が変更された場合、チェックポイントは引き継がれず、名前が変更されたフローは事実上まったく新しいフローになります。
- 既存のチェックポイントが新しいフロー定義と一致しないため、パイプラインでフロー名を再利用することはできません。

フローの種類

ストリーミングテーブルとマテリアライズドビューの当然のフローは追加フローです。 チェンジデータキャプチャデータ ソースから読み取るフローを作成することもできます。次の表では、さまざまな種類のフローについて説明します。

フロータイプ	説明
追加	追加フローは最も一般的なタイプのフローで、更新ごとにソース内の新しいレコードがターゲットに書き込まれます。これらは、構造化ストリーミングの追加モードに対応します。`ONCE`フラグを追加して、ターゲットが完全に更新されない限り、データがターゲットに 1 回だけ挿入されるバッチクエリを示すことができます。任意の数の追加フローが特定のターゲットに書き込むことができます。もちろんフロー (ターゲットストリーミングテーブルまたはマテリアライズドビューで作成されたもの) はターゲットと同じ名前になります。その他のターゲットにはデフォルトのフローはありません。
自動 CDC (以前の変更を適用 )	Auto CDC フローは、チェンジデータキャプチャ ( CDC ) データを含むクエリを取り込みます。自動CDCフローはストリーミングテーブルのみをターゲットにすることができ、ソースはストリーミングソースである必要があります ( `ONCE`フローの場合でも)。複数の自動CDCフローは、単一のストリーミングテーブルをターゲットにすることができます。自動CDCフローのターゲットとして機能するストリーミングテーブルは、他の自動CDCフローによってのみターゲットにできます。 CDCデータの詳細については、「AUTO CDC APIs : パイプラインを使用した変更データキャプチャの簡素化」を参照してください。

フロータイプ

説明

追加

追加フローは最も一般的なタイプのフローで、更新ごとにソース内の新しいレコードがターゲットに書き込まれます。これらは、構造化ストリーミングの追加モードに対応します。ONCEフラグを追加して、ターゲットが完全に更新されない限り、データがターゲットに 1 回だけ挿入されるバッチクエリを示すことができます。任意の数の追加フローが特定のターゲットに書き込むことができます。

もちろんフロー (ターゲットストリーミングテーブルまたはマテリアライズドビューで作成されたもの) はターゲットと同じ名前になります。その他のターゲットにはデフォルトのフローはありません。

自動 CDC (以前の 変更を適用 )

Auto CDC フローは、チェンジデータキャプチャ ( CDC ) データを含むクエリを取り込みます。自動CDCフローはストリーミングテーブルのみをターゲットにすることができ、ソースはストリーミングソースである必要があります ( ONCEフローの場合でも)。複数の自動CDCフローは、単一のストリーミングテーブルをターゲットにすることができます。自動CDCフローのターゲットとして機能するストリーミングテーブルは、他の自動CDCフローによってのみターゲットにできます。

CDCデータの詳細については、「AUTO CDC APIs : パイプラインを使用した変更データキャプチャの簡素化」を参照してください。

追加情報

フローとその使用法の詳細については、次のトピックを参照してください。

アップデート​

デフォルトフローを作成する​

複数のフローを使用して単一のターゲットに書き込む​

フローの種類​

追加情報​

アップデート

デフォルトフローを作成する

複数のフローを使用して単一のターゲットに書き込む

フローの種類

追加情報