メインコンテンツまでスキップ

ジョブのパイプライン タスク

Lakeflowジョブは、 タスク 間の関係を定義するための手順的なアプローチを提供します。 Lakeflow Spark宣言型パイプラインは、 データセット変換の 間の関係を定義するための宣言型アプローチを提供します。 このページでは、ジョブ UI、 Lakeflow Spark宣言型パイプライン UI、または SQL を使用して、トリガーされたLakeflow Spark宣言型SQLジョブ内のタスクとして実行するようにスケジュールする方法について説明します。

注記

トリガーされた パイプラインは、継続的に実行されないパイプラインですが、開始するにはトリガーする必要があります。パイプライン タスクは、トリガーされたパイプラインのトリガー メカニズムにすることができます。連続パイプラインはトリガーする必要がないため、タスクを通じてパイプラインをトリガーするのは冗長です。トリガーされたパイプラインと連続パイプラインの詳細については、「 トリガーされたパイプライン モードと連続パイプライン モード」を参照してください。

ジョブ UI を使用したパイプライン タスクの構成

Lakeflow Spark宣言型パイプラインは、パイプライン定義内のソース コードとコンピュートのすべての構成を管理します。

ジョブにパイプラインを追加するには、次の手順を実行します。

  1. 新しいタスクを作成して名前を付け、 種類パイプライン を選択します。
  2. パイプライン ドロップダウン メニューで、既存のパイプラインを選択します。パイプラインは、トリガーされたパイプラインである必要があります。連続パイプラインは、ジョブ タスクとしてサポートされていません。
  3. 必要に応じて、パイプラインの完全更新をトリガーできます。
  4. オプションで、 パラメーター フィールドでパラメーターの上書きを設定できます。See パラメーター.
注記

タスクの作成時に、 タスクの追加 ペインまたはタスク の種類 ドロップダウンから + 新しいインジェストパイプライン を選択して、新しいインジェストパイプラインを作成することもできます。

パラメーター

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

動的値参照を使用して、パイプラインタスクでジョブまたはタスクのパラメーターにアクセスできます。タスク構成の パラメーター で、 キー のペアを追加することで、パラメーターを上書きできます。

パイプライン内からパラメーター値にアクセスする方法の詳細については、タスクからのパラメーター値へのアクセスを参照してください。

パイプラインタスクの同時実行数の制限

パイプラインは一度に1つしか更新を実行できません。パイプラインタスクを含むジョブには、以下の同時実行数上限が適用されます。

  • パイプラインタスクを含む max_concurrent_runs > 1 のジョブは、1 つの並列実行に制限されます。この上限が適用されると、ジョブUIに通知が表示されます。
  • 「for-each タスク」でラップされたパイプラインタスクは、ループに構成された並列数に関わらず、1つの並列イテレーションに制限されます。

多数のパラメーターの組み合わせ、または短い期間で実行する予定のあるパラメーター化されたパイプラインを設計する際は、これらの上限を考慮して計画してください。

パイプライン UI を使用したパイプラインのスケジュール設定

パイプラインにスケジュールを追加すると、1 つのパイプライン タスクを持つジョブが作成されます。時間ベースのスケジュールトリガーは、このUIを使用してのみ設定できます。より高度なトリガー オプションについては、「 ジョブ UI を使用してパイプライン タスクを構成する」を参照してください。

パイプライン UI を使用してスケジュールされたジョブでパイプライン タスクを構成するには、次の手順を実行します。

  1. ワークスペースで、サイドバーの ワークフローアイコン。 ジョブ & パイプライン をクリックします。

  2. パイプラインの 名前 をクリックします。パイプライン UI が表示されます。

  3. スケジュール をクリックします。

    • パイプラインにスケジュールが存在しない場合は、[ 新しいスケジュール ] ダイアログが表示されます。
    • 1 つ以上のスケジュールがすでに存在する場合は、[ スケジュールの追加 ] をクリックします。
  4. ジョブ名 フィールドにジョブの一意の名前を入力します。

  5. (オプション)スケジュールの頻度を更新します。

    • [ 詳細 ] を選択すると、cron 構文を含むより詳細なオプションが表示されます。
  6. (オプション) その他のオプション で、パイプラインの開始、成功、または失敗時にアラートを受け取るように 1 つ以上の Eメール アドレスを構成します。

  7. 作成 をクリックします。

注記

パイプラインが 1 つ以上のスケジュールされたジョブに含まれている場合、[ スケジュール ] ボタンには既存のスケジュールの数が表示されます ( 例: スケジュール (5) )。

Databricks SQL のマテリアライズド ビューまたはストリーミング テーブルにスケジュールを追加する

Databricks SQL で定義されているマテリアライズドビューとストリーミング テーブルでは、 CREATE コマンドまたは ALTER コマンドで指定された時間ベースのスケジューリングがサポートされています。

詳細については、次の記事を参照してください。