ジョブのパイプライン タスク
Lakeflowジョブは、 タスク 間の関係を定義するための手順的なアプローチを提供します。 Lakeflow Spark宣言型パイプラインは、 データセット と 変換の 間の関係を定義するための宣言型アプローチを提供します。 このページでは、ジョブ UI、 Lakeflow Spark宣言型パイプライン UI、または SQL を使用して、トリガーされたLakeflow Spark宣言型SQLジョブ内のタスクとして実行するようにスケジュールする方法について説明します。
トリガーされた パイプラインは、継続的に実行されないパイプラインですが、開始するにはトリガーする必要があります。パイプライン タスクは、トリガーされたパイプラインのトリガー メカニズムにすることができます。連続パイプラインはトリガーする必要がないため、タスクを通じてパイプラインをトリガーするのは冗長です。トリガーされたパイプラインと連続パイプラインの詳細については、「 トリガーされたパイプライン モードと連続パイプライン モード」を参照してください。
ジョブ UI を使用したパイプライン タスクの構成
Lakeflow Spark宣言型パイプラインは、パイプライン定義内のソース コードとコンピュートのすべての構成を管理します。
ジョブにパイプラインを追加するには、次の手順を実行します。
- 新しいタスクを作成して名前を付け、 種類 で パイプライン を選択します。
- パイプライン ドロップダウン メニューで、既存のパイプラインを選択します。パイプラインは、トリガーされたパイプラインである必要があります。連続パイプラインは、ジョブ タスクとしてサポートされていません。
- 必要に応じて、パイプラインの完全更新をトリガーできます。
- オプションで、 パラメーター フィールドでパラメーターの上書きを設定できます。See パラメーター.
タスクの作成時に、 タスクの追加 ペインまたはタスク の種類 ドロップダウンから + 新しいインジェストパイプライン を選択して、新しいインジェストパイプラインを作成することもできます。
パラメーター
ベータ版
この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。
動的値参照を使用して、パイプラインタスクでジョブまたはタスクのパラメーターにアクセスできます。タスク構成の パラメーター で、 キー と 値 のペアを追加することで、パラメーターを上書きできます。
パイプライン内からパラメーター値にアクセスする方法の詳細については、タスクからのパラメーター値へのアクセスを参照してください。
パイプラインタスクの同時実行数の制限
パイプラインは一度に1つしか更新を実行できません。パイプラインタスクを含むジョブには、以下の同時実行数上限が適用されます。
- パイプラインタスクを含む
max_concurrent_runs > 1のジョブは、1 つの並列実行に制限されます。この上限が適用されると、ジョブUIに通知が表示されます。 - 「for-each タスク」でラップされたパイプラインタスクは、ループに構成された並列数に関わらず、1つの並列イテレーションに制限されます。
多数のパラメーターの組み合わせ、または短い期間で実行する予定のあるパラメーター化されたパイプラインを設計する際は、これらの上限を考慮して計画してください。
パイプライン UI を使用したパイプラインのスケジュール設定
パイプラインにスケジュールを追加すると、1 つのパイプライン タスクを持つジョブが作成されます。時間ベースのスケジュールトリガーは、このUIを使用してのみ設定できます。より高度なトリガー オプションについては、「 ジョブ UI を使用してパイプライン タスクを構成する」を参照してください。
パイプライン UI を使用してスケジュールされたジョブでパイプライン タスクを構成するには、次の手順を実行します。
-
ワークスペースで、サイドバーの
ジョブ & パイプライン をクリックします。
-
パイプラインの 名前 をクリックします。パイプライン UI が表示されます。
-
スケジュール をクリックします。
- パイプラインにスケジュールが存在しない場合は、[ 新しいスケジュール ] ダイアログが表示されます。
- 1 つ以上のスケジュールがすでに存在する場合は、[ スケジュールの追加 ] をクリックします。
-
ジョブ名 フィールドにジョブの一意の名前を入力します。
-
(オプション)スケジュールの頻度を更新します。
- [ 詳細 ] を選択すると、cron 構文を含むより詳細なオプションが表示されます。
-
(オプション) その他のオプション で、パイプラインの開始、成功、または失敗時にアラートを受け取るように 1 つ以上の Eメール アドレスを構成します。
-
作成 をクリックします。
パイプラインが 1 つ以上のスケジュールされたジョブに含まれている場合、[ スケジュール ] ボタンには既存のスケジュールの数が表示されます ( 例: スケジュール (5) )。
Databricks SQL のマテリアライズド ビューまたはストリーミング テーブルにスケジュールを追加する
Databricks SQL で定義されているマテリアライズドビューとストリーミング テーブルでは、 CREATE コマンドまたは ALTER コマンドで指定された時間ベースのスケジューリングがサポートされています。
詳細については、次の記事を参照してください。