メインコンテンツまでスキップ

パイプラインを構築

Lakeflow Spark宣言型パイプラインのパイプラインを、データの読み込み、変換、データ品質チェックの適用、および結果のターゲットテーブルへの書き込みを行うことで構築します。以下のトピックでは、パイプラインの構築と実行に関連するタスクについて説明します。

パイプラインの背後にある宣言型の概念(データセット、フロー、パイプライングラフ)を学ぶには、LakeFlow Spark宣言型パイプラインとはをご覧ください。ステップバイステップのウォークスルーについては、「チュートリアル: チェンジデータキャプチャを用いたETLパイプラインの構築」を参照してください。

トピック

説明

LakeFlow Pipelines Editorで開発します

パイプライングラフ、データプレビュー、選択的実行を備えたエディターで、パイプラインの作成、実行、デバッグが可能です。

パイプライン開発にGenie Codeを使用する

エディタで、Genie Codeエージェントモードを使用して、1つのプロンプトからパイプラインコードを生成、編集、デバッグします。

データの読み込み

クラウドオブジェクトストレージおよびストリーミングメッセージバスから、データをパイプラインに取り込みます。

データを変換する

Apply transformations, joins, and aggregations to build derived datasets.

ストリーミングテーブルのフル更新

すべてのソースデータを再処理して、ストリーミングテーブルを再構築します。

データ品質

期待値に基づいてレコードを検証し、レコードが失敗した場合の動作を制御します。

データセットの書き込み

パイプラインの結果をApache KafkaやAzure Event Hubsなどのシンクに書き込み、フローを使用してストリーミングターゲットに書き込みます。

その他のリソース

このページの見出し