パイプラインを構築
Lakeflow Spark宣言型パイプラインでは、データをロードして変換し、データ品質チェックを適用し、結果をターゲットテーブルに書き込むことで、パイプラインを構築します。以下のトピックでは、パイプラインの構築と実行に関連するタスクについて説明します。
パイプラインの背後にある宣言型コンセプト(データセット、フロー、パイプライングラフ)を学習するには、Lakeflow Spark宣言型パイプラインとはを参照してください。ステップバイステップのウォークスルーについては、「チュートリアル: チェンジデータキャプチャを用いたETLパイプラインの構築」を参照してください。
トピック | 説明 |
|---|---|
パイプライングラフ、データプレビュー、選択的実行を備えたエディターで、パイプラインの作成、実行、デバッグが可能です。 | |
エディタで、Genie Codeエージェントモードを使用して、1つのプロンプトからパイプラインコードを生成、編集、デバッグします。 | |
パイプラインを実行する ID と、パイプラインおよびその出力を作成、実行、更新、および表示できるユーザーを制御します。 | |
クラウドオブジェクトストレージおよびストリーミングメッセージバスから、データをパイプラインに取り込みます。 | |
変換、結合、集計を適用して、派生データセットを構築します。 | |
すべてのソースデータを再処理して、ストリーミングテーブルを再構築します。 | |
期待値に基づいてレコードを検証し、レコードが失敗した場合の動作を制御します。 | |
パイプラインの結果をApache KafkaやAzure Event Hubsなどのシンクに書き込み、フローを使用してストリーミングターゲットに書き込みます。 |