LakeFlow Pipelines を使用してデータを段階的に読み込み、処理します。

データは フロー を通じてパイプラインで処理されます。各フローは クエリー と、通常は ターゲット で構成されます。フローは、クエリーをバッチとして、またはターゲットへのデータストリームとして増分的に処理します。フローは LakeFlow Pipelines 内に存在します。

通常、ターゲットを更新するパイプラインでクエリを作成すると、フローは自動的に定義されますが、複数のソースから 1 つのターゲットに追加するなど、より複雑な処理のために追加のフローを明示的に定義することもできます。

デフォルトフローと追加フロー

パイプラインで、ターゲットを更新するクエリを作成すると、 デフォルトフロー が自動的に定義されます。ストリーミングテーブルの場合、デフォルトのフローは、更新のたびに新しい行を追加する追加フローであり、ターゲットと同じ名前になります。フローとそのターゲットを1つのステップで作成することは、パイプラインを使用する最も一般的な方法であり、これにより、データの取り込みや変換を行うことができます。

ターゲットとは別にフローを定義することもできます。これにより、複数のフローが単一のターゲットにデータを追加できるようになります。このような場合に便利です

完全な更新を必要とせずに、既存のストリーミングテーブルに追記するストリーミングソースを追加します。
ストリーミングテーブルを、不足しているヒストリカルデータでバックフィルします。
UNION句を使用せずに、複数のソースからのデータを結合します。

default フローと明示的なフローを作成する例については、「LakeFlow Pipelines でフローを使用する」を参照してください。

フローの種類

ストリーミングテーブルとマテリアライズドビューのデフォルトのフローは追加フローです。 チェンジデータキャプチャデータ ソースから読み取るフローを作成することもできます。次の表では、さまざまな種類のフローについて説明します。

フロータイプ	説明
追加	追加フローは最も一般的な種類のフローであり、ソース内の新しいレコードは更新ごとにターゲットに書き込まれます。構造化ストリーミングの追加モードに対応します。`ONCE`フラグを追加できます。このフラグは、ターゲットが完全に更新されない限り、データがターゲットに1回だけ挿入されるバッチクエリであることを示します。任意の数の追加フローが特定のターゲットに書き込むことができます。デフォルトのフロー（ターゲットのストリーミングテーブルまたはマテリアライズドビューで作成されたもの）は、ターゲットと同じ名前になります。他のターゲットにはデフォルトフローがありません。
Auto CDC（以前は apply changes ）	Auto CDC フローは、チェンジデータキャプチャ（CDC）データを含むクエリを取り込みます。AUTO CDC フローはストリーミングテーブルのみを対象とし、ソースはストリーミングソースである必要があります（`ONCE` フローの場合でも）。複数のauto CDCフローは、単一のストリーミングテーブルを対象とすることができます。自動CDCフローのターゲットとなるストリーミングテーブルは、他の自動CDCフローのみをターゲットとすることができます。 CDCデータの詳細については、「AUTO CDC APIs：パイプラインによるチェンジデータキャプチャの簡素化」を参照してください。
更新 (パブリックプレビュー)	更新フローは、グローバルでウォーターマークなしのストリーミング集計をシンクに出力し、各バッチで変更されたレコードのみをエミットします。更新フローはPythonでのみ使用できます。「update_flow」を参照してください。

フロータイプ

説明

追加

追加フローは最も一般的な種類のフローであり、ソース内の新しいレコードは更新ごとにターゲットに書き込まれます。構造化ストリーミングの追加モードに対応します。ONCEフラグを追加できます。このフラグは、ターゲットが完全に更新されない限り、データがターゲットに1回だけ挿入されるバッチクエリであることを示します。任意の数の追加フローが特定のターゲットに書き込むことができます。

デフォルトのフロー（ターゲットのストリーミングテーブルまたはマテリアライズドビューで作成されたもの）は、ターゲットと同じ名前になります。他のターゲットにはデフォルトフローがありません。

Auto CDC（以前は apply changes ）

Auto CDC フローは、チェンジデータキャプチャ（CDC）データを含むクエリを取り込みます。AUTO CDC フローはストリーミングテーブルのみを対象とし、ソースはストリーミングソースである必要があります（ONCE フローの場合でも）。複数のauto CDCフローは、単一のストリーミングテーブルを対象とすることができます。自動CDCフローのターゲットとなるストリーミングテーブルは、他の自動CDCフローのみをターゲットとすることができます。

CDCデータの詳細については、「AUTO CDC APIs：パイプラインによるチェンジデータキャプチャの簡素化」を参照してください。

更新 (パブリックプレビュー)

更新フローは、グローバルでウォーターマークなしのストリーミング集計をシンクに出力し、各バッチで変更されたレコードのみをエミットします。

更新フローはPythonでのみ使用できます。「update_flow」を参照してください。

フロータイプ	説明
追加	追加フローは最も一般的な種類のフローであり、ソース内の新しいレコードは更新ごとにターゲットに書き込まれます。構造化ストリーミングの追加モードに対応します。`ONCE`フラグを追加できます。このフラグは、ターゲットが完全に更新されない限り、データがターゲットに1回だけ挿入されるバッチクエリであることを示します。任意の数の追加フローが特定のターゲットに書き込むことができます。デフォルトのフロー（ターゲットのストリーミングテーブルまたはマテリアライズドビューで作成されたもの）は、ターゲットと同じ名前になります。他のターゲットにはデフォルトフローがありません。
Auto CDC（以前は apply changes ）	Auto CDC フローは、チェンジデータキャプチャ（CDC）データを含むクエリを取り込みます。AUTO CDC フローはストリーミングテーブルのみを対象とし、ソースはストリーミングソースである必要があります（`ONCE` フローの場合でも）。複数のauto CDCフローは、単一のストリーミングテーブルを対象とすることができます。自動CDCフローのターゲットとなるストリーミングテーブルは、他の自動CDCフローのみをターゲットとすることができます。 CDCデータの詳細については、「AUTO CDC APIs：パイプラインによるチェンジデータキャプチャの簡素化」を参照してください。
更新 (パブリックプレビュー)	更新フローは、グローバルでウォーターマークなしのストリーミング集計をシンクに出力し、各バッチで変更されたレコードのみをエミットします。更新フローはPythonでのみ使用できます。「update_flow」を参照してください。

フロータイプ

説明

追加

Auto CDC（以前は apply changes ）

CDCデータの詳細については、「AUTO CDC APIs：パイプラインによるチェンジデータキャプチャの簡素化」を参照してください。

更新 (パブリックプレビュー)

更新フローはPythonでのみ使用できます。「update_flow」を参照してください。

その他のリソース

フローとその使用方法に関する詳細については、以下のトピックを参照してください。

最新情報​

デフォルトフローと追加フロー​

フローの種類​

その他のリソース​

最新情報

デフォルトフローと追加フロー

フローの種類

その他のリソース