LakeFlow宣言型パイプラインフローを使用してデータを段階的に読み込み、処理する

データは LakeFlow 宣言型パイプラインで フロー を通じて処理されます。各フローは 、クエリ と、通常は ターゲット で構成されます。フローは、クエリをバッチとして、またはターゲットへのデータストリームとして増分的に処理します。フローは、Databricks の ETL パイプライン内に存在します。

通常、フローは、ターゲットを更新するクエリを宣言型パイプラインで LakeFlow 作成すると自動的に定義されますが、複数のソースから 1 つのターゲットに追加するなど、より複雑な処理のために追加のフローを明示的に定義することもできます。

デフォルトフローを作成する

パイプラインで LakeFlow 宣言型パイプラインオブジェクトを作成するときは、通常、テーブルまたはビューとそれをサポートするクエリを定義します。たとえば、このSQLクエリでは、customers_bronzeというテーブルから読み取って、customers_silver というストリーミングテーブルを作成します。

SQL
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

Pythonでも同じストリーミングテーブルを作成できます。Pythonでは、通常、LakeFlow 宣言型パイプラインを使用して、データフレームを返すクエリ関数を作成し、デコレータを使用して宣言型パイプライン機能にアクセスしますLakeFlow。

Python
import dlt

@dlt.table()
def customers_silver():
  return spark.readStream.table("customers_bronze")

この例では、 ストリーミングテーブル を作成しました。また、SQL と Python の両方で同様の構文でマテリアライズドビューを作成することもできます。詳細については、「ストリーミングテーブル」および「マテリアライズドビュー」を参照してください。

この例では、ストリーミングテーブルと共にデフォルトフローを作成します。ストリーミングテーブルのデフォルトフローは追加フローであり、トリガーごとに新しい行を追加します。これは、 LakeFlow 宣言型パイプラインを使用して、フローとターゲットを 1 つのステップで作成する最も一般的な方法です。このスタイルを使用して、データの取り込みやデータの変換を行うことができます。

追加フローは、1 つのターゲットを更新するために複数のストリーミングソースからデータを読み取る必要がある処理もサポートしています。たとえば、既存のストリーミングテーブルとフローがあり、この既存のストリーミングテーブルに書き込む新しいストリーミングソースを追加する場合は、フローの追加機能を使用できます。

複数のフローを使用して 1 つのターゲットに書き込む

前の例では、フローとストリーミングテーブルを 1 つのステップで作成しました。以前に作成したテーブルのフローを作成することもできます。この例では、テーブルの作成とそれに関連付けられたフローを別々のステップで見ることができます。このコードは、ストリーミングテーブルとフローに同じ名前を使用するなど、デフォルトフローの作成と同じ結果になります。

Python
SQL

Python
import dlt

# create streaming table
dlt.create_streaming_table("customers_silver")

# add a flow
@dlt.append_flow(
  target = "customers_silver")
def customer_silver():
  return spark.readStream.table("customers_bronze")

SQL
-- create a streaming table
CREATE OR REFRESH STREAMING TABLE customers_silver;

-- add a flow
CREATE FLOW customers_silver
AS INSERT INTO customers_silver BY NAME
SELECT * FROM STREAM(customers_bronze);

ターゲットから独立してフローを作成すると、同じターゲットにデータを追加する複数のフローも作成できます。

Python インターフェイスの @append_flow デコレータまたは SQL インターフェイスの CREATE FLOW...INSERT INTO 句を使用して、新しいフローを作成します (たとえば、複数のストリーミングソースからストリーミングテーブルをターゲットにします)。追加フローは、次のような処理タスクに使用します。

既存のストリーミングテーブルにデータを追加するストリーミングソース (完全な更新を必要とせずに) を追加します。たとえば、事業を展開しているすべての地域の地域データを組み合わせたテーブルがあるとします。新しいリージョンがロールアウトされると、完全な更新を実行せずに新しいリージョンデータをテーブルに追加できます。既存のストリーミングテーブルにストリーミングソースを追加する例については、「例: 複数の Kafka トピックからストリーミングテーブルへの書き込み」を参照してください。
不足しているヒストリカルデータ (バックフィル) を追加して、ストリーミングテーブルを更新します。たとえば、Apache Kafka トピックによって書き込まれる既存のストリーミングテーブルがあるとします。また、ストリームテーブルに一度だけ挿入する必要があるテーブルにヒストリカルデータが格納されており、データを挿入する前に複雑な集計を実行する処理が含まれるため、データをストリームすることはできません。バックフィルの例については、例: 1 回限りのデータバックフィルの実行を参照してください。
複数のソースからのデータを結合し、クエリで UNION 句を使用する代わりに 1 つのストリーミングテーブルに書き込みます。 UNION の代わりに追加フロー処理を使用すると、フル・リフレッシュ更新を実行せずにターゲット・テーブルを増分的に更新できます。この方法で行われるユニオンの例については、「例: UNIONの代わりに追加フロー処理を使用する」を参照してください。

追加フロー処理によって出力されるレコードのターゲットは、既存のテーブルまたは新しいテーブルです。 Python クエリの場合は、 create_streaming_table() 関数を使用してターゲットテーブルを作成します。

次の例では、同じターゲットに 2 つのフローを追加し、2 つのソーステーブルの和集合を作成します。

Python
SQL

Python
import dlt

# create a streaming table
dlt.create_streaming_table("customers_us")

# add the first append flow
@dlt.append_flow(target = "customers_us")
def append1():
  return spark.readStream.table("customers_us_west")

# add the second append flow
@dlt.append_flow(target = "customers_us")
def append2():
  return spark.readStream.table("customers_us_east")

SQL
-- create a streaming table
CREATE OR REFRESH STREAMING TABLE customers_us;

-- add the first append flow
CREATE FLOW append1
AS INSERT INTO customers_us BY NAME
SELECT * FROM STREAM(customers_us_west);

-- add the second append flow
CREATE FLOW append2
AS INSERT INTO customers_us BY NAME
SELECT * FROM STREAM(customers_us_east);

important

エクスペクテーションを使用してデータ品質制約を定義する必要がある場合は、create_streaming_table() 関数の一部としてターゲット表または既存の表定義でエクスペクテーションを定義します。@append_flow定義でエクスペクテーションを定義することはできません。
フローは フロー名 で識別され、この名前はストリーミングチェックポイントを識別するために使用されます。チェックポイントを識別するためにフロー名を使用するということは、以下のことを意味します。
- パイプライン内の既存のフローの名前が変更された場合、チェックポイントは引き継がれず、名前が変更されたフローは事実上まったく新しいフローになります。
- パイプラインでフロー名を再利用することはできません。これは、既存のチェックポイントが新しいフロー定義と一致しないためです。

フローの種類

ストリーミングテーブルとマテリアライズドビューのデフォルトフローは追加フローです。 チェンジデータキャプチャ データソースから読み取るフローを作成することもできます。次の表では、さまざまなタイプのフローについて説明します。

フロータイプ	説明
追加	追加フローは最も一般的なタイプのフローで、更新のたびにソース内の新しいレコードがターゲットに書き込まれます。これらは、構造化ストリーミングの追加モードに対応しています。ターゲットが完全にリフレッシュされない限り、データをターゲットに一度だけ挿入するバッチ問合せを示す `ONCE` フラグを追加できます。任意の数の追加フローを特定のターゲットに書き込むことができます。デフォルトフロー (ターゲットストリーミングテーブルまたはマテリアライズドビューで作成) は、ターゲットと同じ名前になります。他のターゲットにはデフォルトのフローはありません。
自動 CDC (以前に変更を適用)	自動CDC フローは、チェンジデータキャプチャ (CDC) データを含むクエリを取り込みます。Auto CDC フローはストリーミングテーブルのみをターゲットにでき、ソースはストリーミングソースである必要があります ( `ONCE` フローの場合でも)。複数の自動 CDC フローで 1 つのストリーミングテーブルをターゲットにできます。自動 CDC フローのターゲットとして機能するストリーミングテーブルは、他の自動 CDC フローによってのみターゲットにすることができます。 CDCデータの詳細については、「The AUTO CDC APIs: Simplify チェンジデータキャプチャ with LakeFlow 宣言型パイプライン」を参照してください。

フロータイプ

説明

追加

追加フローは最も一般的なタイプのフローで、更新のたびにソース内の新しいレコードがターゲットに書き込まれます。これらは、構造化ストリーミングの追加モードに対応しています。ターゲットが完全にリフレッシュされない限り、データをターゲットに一度だけ挿入するバッチ問合せを示す ONCE フラグを追加できます。任意の数の追加フローを特定のターゲットに書き込むことができます。

デフォルトフロー (ターゲットストリーミングテーブルまたはマテリアライズドビューで作成) は、ターゲットと同じ名前になります。他のターゲットにはデフォルトのフローはありません。

自動 CDC (以前に 変更を適用)

自動CDC フローは、チェンジデータキャプチャ (CDC) データを含むクエリを取り込みます。Auto CDC フローはストリーミングテーブルのみをターゲットにでき、ソースはストリーミングソースである必要があります ( ONCE フローの場合でも)。複数の自動 CDC フローで 1 つのストリーミングテーブルをターゲットにできます。自動 CDC フローのターゲットとして機能するストリーミングテーブルは、他の自動 CDC フローによってのみターゲットにすることができます。

CDCデータの詳細については、「The AUTO CDC APIs: Simplify チェンジデータキャプチャ with LakeFlow 宣言型パイプライン」を参照してください。

追加情報

フローとその使用方法の詳細については、次のトピックを参照してください。

最新情報​

デフォルト フローを作成する​

複数のフローを使用して 1 つのターゲットに書き込む​

フローの種類​

追加情報​

最新情報

デフォルトフローを作成する

複数のフローを使用して 1 つのターゲットに書き込む

フローの種類

追加情報