パイプラインを構築
Lakeflow Spark宣言型パイプラインのパイプラインを、データの読み込み、変換、データ品質チェックの適用、および結果のターゲットテーブルへの書き込みを行うことで構築します。以下のトピックでは、パイプラインの構築と実行に関連するタスクについて説明します。
パイプラインの背後にある宣言型の概念(データセット、フロー、パイプライングラフ)を学ぶには、LakeFlow Spark宣言型パイプラインとはをご覧ください。ステップバイステップのウォークスルーについては、「チュートリアル: チェンジデータキャプチャを用いたETLパイプラインの構築」を参照してください。
トピック | 説明 |
|---|---|
パイプライングラフ、データプレビュー、選択的実行を備えたエディターで、パイプラインの作成、実行、デバッグが可能です。 | |
エディタで、Genie Codeエージェントモードを使用して、1つのプロンプトからパイプラインコードを生成、編集、デバッグします。 | |
クラウドオブジェクトストレージおよびストリーミングメッセージバスから、データをパイプラインに取り込みます。 | |
変換、結合、集計を適用して、派生データセットを構築します。 | |
すべてのソースデータを再処理して、ストリーミングテーブルを再構築します。 | |
期待値に基づいてレコードを検証し、レコードが失敗した場合の動作を制御します。 | |
パイプラインの結果をApache KafkaやAzure Event Hubsなどのシンクに書き込み、フローを使用してストリーミングターゲットに書き込みます。 |