メインコンテンツまでスキップ

パイプラインを構築

Lakeflow Spark宣言型パイプラインでは、データをロードして変換し、データ品質チェックを適用し、結果をターゲットテーブルに書き込むことで、パイプラインを構築します。以下のトピックでは、パイプラインの構築と実行に関連するタスクについて説明します。

パイプラインの背後にある宣言型コンセプト(データセット、フロー、パイプライングラフ)を学習するには、Lakeflow Spark宣言型パイプラインとはを参照してください。ステップバイステップのウォークスルーについては、「チュートリアル: チェンジデータキャプチャを用いたETLパイプラインの構築」を参照してください。

トピック

説明

LakeFlow Pipelines Editorで開発します

パイプライングラフ、データプレビュー、選択的実行を備えたエディターで、パイプラインの作成、実行、デバッグが可能です。

パイプライン開発にGenie Codeを使用する

エディタで、Genie Codeエージェントモードを使用して、1つのプロンプトからパイプラインコードを生成、編集、デバッグします。

ID と特権を管理する

パイプラインを実行する ID と、パイプラインおよびその出力を作成、実行、更新、および表示できるユーザーを制御します。

データの読み込み

クラウドオブジェクトストレージおよびストリーミングメッセージバスから、データをパイプラインに取り込みます。

データを変換する

変換、結合、集計を適用して、派生データセットを構築します。

ストリーミングテーブルのフル更新

すべてのソースデータを再処理して、ストリーミングテーブルを再構築します。

データ品質

期待値に基づいてレコードを検証し、レコードが失敗した場合の動作を制御します。

データセットの書き込み

パイプラインの結果をApache KafkaやAzure Event Hubsなどのシンクに書き込み、フローを使用してストリーミングターゲットに書き込みます。

その他のリソース

このページの見出し