Lakeflowジョブの設定と編集

ジョブ UI を使用して、または Databricks CLI や REST API などの開発者ツールを使用して、ジョブを作成および実行できます。UI または API を使用して、失敗したジョブまたはキャンセルされたジョブを修復して再実行できます。この記事では、 ジョブとパイプライン ワークスペース UI を使用してジョブを作成、構成、編集する方法を示します。その他のツールに関する情報については、以下を参照してください。

Databricks CLI を使用してジョブを作成および実行する方法については、「Databricks CLI」を参照してください。
ジョブAPIを使用してジョブを作成および実行する方法については、REST APIリファレンスのジョブを参照してください。
設定にInfrastructure-as-Code （ IaC ）のアプローチを好む場合は、宣言型自動化バンドルを使用できます。バンドルを使用してジョブを構成およびオーケストレーションする方法については、「宣言型自動化バンドル」を参照してください。
Databricks ノートブックで直接ジョブを実行およびスケジュールする方法については、「スケジュールされたノートブックジョブを作成および管理する」を参照してください。

ヒント

ジョブを YAML として表示するには、ジョブの 今すぐ実行 の左側にあるケバブメニューをクリックし、 コードバージョンに切り替え (YAML) をクリックします。

ジョブの最低限の構成

Databricks のすべてのジョブには、次のものが必要です。

実行するロジックを含むタスク (Databricks ノートブックなど)。Lakeflowジョブでのタスクの構成と編集を参照してください
ロジックを実行するためのコンピュートリソース。コンピュートリソースには、サーバレスコンピュート、クラシックジョブコンピュート、または汎用コンピュートを使用できます。ジョブのコンピュートの設定を参照してください。
ジョブを実行するタイミングについて指定されたスケジュール。オプションで、スケジュールの設定を省略して、ジョブを手動でトリガーできます。
ユニークな名前。

新しいジョブを作成する

このセクションでは、ノートブックタスクを使用して新しいジョブを作成し、ワークスペース UI を使用してスケジュールを設定する手順について説明します。

ジョブには 1 つ以上のタスクが含まれます。新しいジョブを作成するには、そのジョブの最初のタスクを構成します。

注記

各タスクタイプには、ワークスペース UI の動的構成オプションがあります。「Lakeflowジョブでのタスクの設定と編集」を参照してください。

ワークスペースで、サイドバーの Jobs & パイプライン をクリックします。
作成をクリックし、 ジョブ をクリックします。
最初のタスクを構成するには、 ノートブック タイルをクリックします。 ノートブック タイルが利用できない場合は、 [別のタスクタイプを追加] をクリックし、 ノートブック を検索します。
タスク名 を入力します。
パスフィールドのノートブックを選択します。
タスクの保存 をクリックします。

ワークスペースでジョブ用サーバレスコンピュートが有効になっていない場合は、 コンピュート オプションを選択する必要があります。 Databricks タスクを設定するときは、常にジョブコンピュートを使用することをお勧めします。

新しいジョブがワークスペースジョブリストにデフォルト名 New Job <date> <time>で表示されます。

ワークフローに必要な場合は、同じジョブ内に引き続きタスクを追加できます。タスクが 100 を超えるジョブには、特別な要件がある場合があります。詳細については、「タスクの数が多いジョブ」を参照してください。

ジョブのスケジュール

ジョブを実行するタイミングを決定できます。デフォルトでは、手動で開始する場合にのみ実行されますが、自動的に実行するように設定することも可能です。スケジュールまたはイベントに基づいてジョブを実行するトリガーを作成できます。

ジョブ内のタスクのフローを制御する

ジョブで複数のタスクを構成する場合は、特殊なタスクを使用してタスクの実行方法を制御できます。「Lakeflowジョブ内のタスクのフローを制御する」を参照してください。

ワークスペースで編集するジョブを選択する

ワークスペース UI を使用して既存のジョブを編集するには、次の手順を実行します。

Databricks ワークスペースのサイドバーで、[ ジョブとパイプライン] をクリックします。
必要に応じて、[ ジョブ ] と [自分が所有] フィルターを選択します。
ジョブ の [名前 ] リンクをクリックします。

ジョブ UI を使用して、次の操作を行います。

ジョブ設定の編集
ジョブの名前変更、クローン作成、または削除
既存のジョブに新しいタスクを追加する
タスク設定の編集

注記

また、REST API の取得、作成、およびリセットエンドポイントで使用する JSON 定義を表示することもできます。

ジョブ設定の編集

サイドパネルには、 ジョブの詳細 が含まれています。ジョブのスケジュールまたはトリガー、ジョブ・パラメーター、コンピュート構成、タグ、通知、並列実行の最大数、期間しきい値、および Git 設定を変更できます。ジョブのアクセス制御が有効になっている場合は、ジョブのアクセス許可を編集することもできます。

すべてのジョブタスクにパラメーターを追加する

ジョブレベルで構成されたパラメーターは、キーワード引数を受け入れるように構成された Python wheelファイルを含む、key-value パラメーターを受け入れるジョブのタスクに渡されます。ジョブのパラメータ化を参照してください。

ジョブにタグを追加する

ジョブにラベルや Key-Value 属性を追加するには、ジョブの編集時にタグを追加します。タグを使用して、ジョブリスト内のジョブをフィルタリングできます。たとえば、 department タグを使用して、特定の部門に属するすべてのジョブをフィルタリングできます。

注記

ジョブタグは、個人を特定できる情報やパスワードなどの機密情報を格納するようには設計されていないため、Databricks では、機密性の低い値にのみタグを使用することをお勧めします。

タグは、ジョブの実行時に作成されるジョブクラスターにも伝播されるため、既存のクラスターモニタリングでタグを使用できます。

ジョブの詳細サイドパネルで タグをクリックして、タグを追加または編集します。タグは、ラベルまたはキーと値のペアとして追加できます。ラベルを追加するには、キーフィールドにラベルを入力し、値フィールドを空のままにします。

ジョブでの Git の使用

リモートGitリポジトリからソースコードを直接チェックアウトするようにジョブタスクを構成できます。大規模なリポジトリのスパースチェックアウトを含む手順とベストプラクティスについては、 LakeFlowジョブでGit使用する」を参照してください。

ジョブの名前変更、クローン作成、または削除

ジョブの名前を変更するには、ジョブ UI に移動し、ジョブ名をクリックして、新しい名前を入力します。

既存のジョブをクローニングすることで、新しいジョブをすばやく作成できます。ジョブをクローニングすると、ジョブ ID を除き、ジョブの同一のコピーが作成されます。ジョブをクローニングするには、次の手順を実行します。

左側サイドバーの [ジョブとパイプライン] をクリックします。
クローンを作成するジョブの名前をクリックして、ジョブ UI を開きます。
今すぐ実行 ボタンの横にあるをクリックします。
ドロップダウンメニューから [クローンジョブ ]を選択します。
クローニングされたジョブの名前を入力します。
[ クローンを作成 ] をクリックします。

ジョブの削除

ジョブを削除するには、ジョブページに移動し、ジョブ名の横にある [ ] をクリックして、ドロップダウンメニューから [ ジョブの削除 ] を選択します。

ジョブの実行期間またはストリーミングバックログメトリクスのしきい値を構成する

備考

プレビュー

Lakeflowジョブのストリーミングオブザーバビリティはパブリックプレビュー段階です。

ジョブ実行時間またはストリーミングバックログメトリクスに対するオプションのしきい値を構成できます。期間またはストリーミングメトリクスのしきい値を設定するには、 ジョブの詳細 パネルで 期間とストリーミングバックログのしきい値 をクリックします。

ジョブの予想完了時間と最大完了時間など、ジョブの期間のしきい値を設定するには、 メトリクス ドロップダウンメニューで 実行期間 を選択します。警告フィールドに期間を入力して、ジョブの予想完了時間を設定します。ジョブがこのしきい値を超えると、イベントがトリガーされます。このイベントを使用して、ジョブの実行が遅いときに通知できます。低速ジョブの通知を構成するを参照してください。ジョブの最大完了時間を設定するには、 タイムアウト フィールドに最大時間を入力します。この時間内にジョブが完了しない場合、Databricks はジョブのステータスを「タイムアウト」に設定します。

ストリーミングバックログメトリクスのしきい値を設定するには、 メトリクス ドロップダウンメニューでメトリクスを選択し、しきい値の値を入力します。ストリーミングソースでサポートされている特定のメトリクスについては、「ストリーミングタスクのメトリクスを表示する」を参照してください。

しきい値を超えたためにイベントがトリガーされた場合は、イベントを使用して通知を送信できます。低速ジョブの通知を構成するを参照してください。

オプションで、タスクの期間のしきい値を指定できます。タスクの実行期間のしきい値を構成するまたはストリーミングバックログメトリクスを参照してください。

ジョブ実行のキューイングを有効にする

注記

キューイングは、2024 年 4 月 15 日以降に UI を使用して作成されたジョブに対してデフォルトで有効になっています。

同時実行の制限によりジョブの実行がスキップされないようにするには、ジョブのキューイングを有効にします。キューイングが有効になっている場合、ジョブの実行にリソースが使用できない場合、実行は最大 48 時間キューに入れられます。容量が使用可能な場合、ジョブの実行はキューから取り出されて実行されます。キューに入れられた実行は、ジョブの実行リストと最近のジョブ実行リストに表示されます。

実行は、次のいずれかの制限に達したときにキューに入れられます。

ワークスペース内の最大並列アクティブ実行。
ワークスペースで実行されるタスクの最大数並列 Run Job 。
ジョブの最大並列実行。

キューイングは、そのジョブに対してのみ実行をキューに入れるジョブレベルのプロパティです。

キューイングを有効または無効にするには、 詳細設定 をクリックし、 ジョブの詳細 サイドパネルの キュー トグルボタンをクリックします。

最大並列実行の構成

デフォルトでは、すべての新しいジョブの最大並列実行は 1 です。

詳細設定 の 同時実行の編集 をクリックして、このジョブの並列実行の最大数を設定します。

Databricks は、新しい実行を開始しようとしたときに、ジョブが既にアクティブな実行の最大数に達している場合、実行をスキップします。

この値を 1 より大きい値に設定すると、同じジョブの複数の並列実行が可能になります。これは、たとえば、頻繁なスケジュールでジョブをトリガーし、連続した実行をオーバーラップさせたり、入力パラメーターが異なる複数の実行をトリガーしたりする場合に役立ちます。

ジョブの最低限の構成​

新しいジョブを作成する​

ジョブのスケジュール​

ジョブ内のタスクのフローを制御する​

ワークスペースで編集するジョブを選択する​

ジョブ設定の編集​

すべてのジョブ タスクにパラメーターを追加する​

ジョブにタグを追加する​

ジョブでの Git の使用​

ジョブの名前変更、クローン作成、または削除​

ジョブの削除​

ジョブの実行期間またはストリーミング バックログ メトリクスのしきい値を構成する​

ジョブ実行のキューイングを有効にする​

最大並列 実行の構成​