パイプラインを構築

データをロードおよび変換し、データ品質チェックを適用し、結果をターゲットテーブルに書き込むことで、LakeFlow Pipelinesを構築します。以下のトピックでは、パイプラインの構築と実行に含まれるタスクについて説明します。

パイプライン (データセット、フロー、パイプライングラフ) の宣言的な概念を学ぶには、LakeFlow Pipelinesとは?を参照してください。ステップごとのチュートリアルについては、チュートリアル: チェンジデータキャプチャを使用してETLパイプラインを構築するを参照してください。

トピック	説明
LakeFlow Pipelines Editorで開発します	パイプライングラフ、データプレビュー、選択的実行を備えたエディターで、パイプラインの作成、実行、デバッグが可能です。
パイプライン開発にGenie Codeを使用する	エディタで、Genie Codeエージェントモードを使用して、1つのプロンプトからパイプラインコードを生成、編集、デバッグします。
ID と特権を管理する	パイプラインを実行する ID と、パイプラインおよびその出力を作成、実行、更新、および表示できるユーザーを制御します。
データの読み込み	クラウドオブジェクトストレージおよびストリーミングメッセージバスから、データをパイプラインに取り込みます。
データを変換する	変換、結合、集計を適用して、派生データセットを構築します。
ストリーミングテーブルのフル更新	すべてのソースデータを再処理して、ストリーミングテーブルを再構築します。
データ品質	期待値に基づいてレコードを検証し、レコードが失敗した場合の動作を制御します。
データセットの書き込み	パイプラインの結果をApache KafkaやAzure Event Hubsなどのシンクに書き込み、フローを使用してストリーミングターゲットに書き込みます。

トピック	説明
LakeFlow Pipelines Editorで開発します	パイプライングラフ、データプレビュー、選択的実行を備えたエディターで、パイプラインの作成、実行、デバッグが可能です。
パイプライン開発にGenie Codeを使用する	エディタで、Genie Codeエージェントモードを使用して、1つのプロンプトからパイプラインコードを生成、編集、デバッグします。
ID と特権を管理する	パイプラインを実行する ID と、パイプラインおよびその出力を作成、実行、更新、および表示できるユーザーを制御します。
データの読み込み	クラウドオブジェクトストレージおよびストリーミングメッセージバスから、データをパイプラインに取り込みます。
データを変換する	変換、結合、集計を適用して、派生データセットを構築します。
ストリーミングテーブルのフル更新	すべてのソースデータを再処理して、ストリーミングテーブルを再構築します。
データ品質	期待値に基づいてレコードを検証し、レコードが失敗した場合の動作を制御します。
データセットの書き込み	パイプラインの結果をApache KafkaやAzure Event Hubsなどのシンクに書き込み、フローを使用してストリーミングターゲットに書き込みます。

その他のリソース​