メインコンテンツまでスキップ

Databricks ジョブの構成と編集

ジョブ UI を使用して、または Databricks CLI や REST API などの開発者ツールを使用して、ジョブを作成および実行できます。 UI または API を使用して、失敗したジョブまたはキャンセルされたジョブを修復して再実行できます。 この記事では、 ワークフロー ワークスペース UI を使用してジョブを作成、構成、編集する方法を示します。 その他のツールに関する情報については、以下を参照してください。

ヒント

ジョブを YAML として表示するには、ジョブの [ 今すぐ実行 ] の左側にあるケバブ メニューをクリックし、[ コード バージョンに切り替え (YAML)] をクリックします。

ジョブに必要な最小構成は?

Databricks のすべてのジョブには、次のものが必要です。

  • 実行するロジックを含むタスク (Databricks ノートブックなど)。 「Databricks タスクの構成と編集」を参照してください
  • ロジックを実行するためのコンピュート リソース。 コンピュート リソースには、サーバレス コンピュート、classic ジョブ コンピュート、または万能コンピュートを使用できます。 「ジョブのコンピュートの設定」を参照してください。
  • ジョブを実行するタイミングについて指定されたスケジュール。 オプションで、スケジュールの設定を省略して、ジョブを手動でトリガーできます。
  • ユニークな名前。

新しいジョブを作成する

このセクションでは、ノートブック タスクを使用して新しいジョブを作成し、ワークスペース UI を使用してスケジュールを設定する手順について説明します。

ジョブには 1 つ以上のタスクが含まれます。 新しいジョブを作成するには、そのジョブの最初のタスクを構成します。

注記

各タスク タイプには、ワークスペース UI の動的構成オプションがあります。 「Databricks タスクの構成と編集」を参照してください。

  1. ワークフローアイコン サイドバー の「 ワークフロー 「ジョブを作成」ボタン」をクリックし、「 」をクリックします。
  2. タスク名 を入力します。
  3. [パス ] フィールドのノートブックを選択します。
  4. コンピュート オプションを選択します。Databricks タスクを設定するときは、常にジョブ コンピュートを使用することをお勧めします。
  5. タスクを作成 」をクリックします。

新しいジョブがワークスペース ジョブ リストにデフォルト名 New Job <date> <time>で表示されます。

ワークフローに必要な場合は、同じジョブ内に引き続きタスクを追加できます。

ジョブのスケジュール

ジョブをいつ実行するかは、ユーザーが決定できます。 デフォルトでは、手動で開始した場合にのみ実行されますが、自動的に実行されるように構成することもできます。 トリガーを作成して、スケジュールに従って、またはイベントに基づいてジョブを実行できます。

ジョブ内のタスクのフローの制御

ジョブで複数のタスクを構成する場合は、特殊なタスクを使用してタスクの実行方法を制御できます。 「Databricks ジョブ内のタスクのフローを制御する」を参照してください。

ワークスペースで編集するジョブを選択する

ワークスペース UI を使用して既存のジョブを編集するには、次の手順を実行します。

  1. サイドバーのワークフローアイコンワークフロー ]をクリックします。
  2. 「名前」 列で、ジョブ名をクリックします。

ジョブ UI を使用して、次の操作を行います。

  • ジョブ設定の編集
  • ジョブの名前変更、クローン作成、または削除
  • 既存のジョブに新しいタスクを追加する
  • タスク設定の編集
注記

また、REST API の取得作成およびリセット エンドポイントで使用する JSON 定義を表示することもできます。

ジョブ設定の編集

サイドパネルには 、ジョブの詳細 が含まれています。 ジョブ・トリガー、コンピュート構成、 通知、並列実行の最大数、期間しきい値の構成、およびタグの追加または変更を行うことができます。 ジョブのアクセス制御が有効になっている場合は、ジョブのアクセス許可を編集することもできます。

すべてのジョブ タスクにパラメーターを追加する

ジョブ レベルで構成されたパラメーターは、キーワード引数を受け入れるように構成された SAP ファイルを含む、key-value パラメーターを受け入れるジョブのタスク Python wheel 渡されます。 ジョブのパラメータ化を参照してください。

ジョブにタグを追加する

ジョブにラベルや Key-Value 属性を追加するには、ジョブの編集時に タグ を追加します。 タグを使用して、 ジョブリスト内のジョブをフィルタリングできます。 たとえば、 department タグを使用して、特定の部門に属するすべてのジョブをフィルタリングできます。

注記

ジョブ タグは、個人を特定できる情報やパスワードなどの機密情報を格納するようには設計されていないため、Databricks では、機密性の低い値にのみタグを使用することをお勧めします。

タグは、ジョブの実行時に作成されるジョブ クラスターにも伝播されるため、既存の クラスター モニタリングでタグを使用できます。

[ジョブの詳細 ] サイド パネルで [+ タグ ] をクリックして、タグを追加または編集します。タグは、ラベルまたはキーと値のペアとして追加できます。 ラベルを追加するには、[ キー ] フィールドにラベルを入力し、[ ] フィールドを空のままにします。

ジョブの名前変更、クローン作成、または削除

ジョブの名前を変更するには、ジョブUIに移動し、ジョブ名をクリックします。

既存のジョブをクローニングすることで、新しいジョブをすばやく作成できます。 ジョブをクローニングすると、ジョブ ID を除き、ジョブの同一のコピーが作成されます。 ジョブをクローニングするには、次の手順を実行します。

  1. ジョブの UI に移動します。
  2. [ケバブメニュー 今すぐ実行]ボタンの横にある[]をクリックします。
  3. ドロップダウンメニューから [クローンジョブ ]を選択します。
  4. クローニングされたジョブの名前を入力します。
  5. [ クローンを作成 ] をクリックします。

ジョブの削除

ジョブを削除するには、ジョブ ページに移動し、ジョブ名の横にある [ ��ケバブメニュー ] をクリックして、ドロップダウン メニューから [ ジョブの削除 ] を選択します。

ジョブでの Git の使用

ジョブにリモート Git プロバイダーの使用をサポートするタスクが含まれている場合、ジョブ UI には Git フィールドと、Git設定を追加または編集するオプションが含まれています。

次のタスクタイプを設定して、リモート Git リポジトリを使用できます。

  • ノートブック
  • Python スクリプト
  • SQL ファイル
  • dbt

ジョブ内のすべてのタスクは、リモートリポジトリ内の同じコミットを参照する必要があります。 リモートリポジトリを使用するジョブには、次のいずれか 1 つだけを指定する必要があります。

  • ブランチ :ブランチの名前、たとえば main
  • タグ :タグの名前、たとえば release-1.0.0
  • コミット : 特定のコミットのハッシュ (例: e0056d01.

ジョブの実行が開始されると、 Databricks はリモート リポジトリのスナップショット コミットを取得して、ジョブ全体が同じバージョンのコードに対して実行されるようにします。

リモート Git リポジトリーに保管されているコードを実行するタスクの実行履歴を表示すると、 タスク実行の詳細 パネルには、実行に関連付けられたコミット SHA などの Git 詳細が含まれます。 「タスク実行履歴の表示」を参照してください。

注記

リモート Git リポジトリを使用するように構成されたタスクは、ワークスペース ファイルに書き込むことはできません。 これらのタスクは、タスクを実行するように構成されたコンピュートのドライバー ノードにアタッチされた一時ストレージに一時データを書き込む必要があり、永続データをボリュームまたはテーブルに書き込む必要があります。

Databricks では、Git フォルダー内のワークスペース パスを参照するのは、開発中の迅速なイテレーションとテストのためだけにすることをお勧めします。 ジョブをステージングおよび本番運用に移行するときは、 Databricks は、これらのジョブがリモート Git リポジトリを参照するように構成することをお勧めします。 Databricks ジョブでリモート Git リポジトリを使用する方法の詳細については、次のセクションを参照してください。

Git プロバイダーを構成する

ジョブ UI には、リモート Git リポジトリを設定するためのダイアログがあります。 このダイアログには、[ ジョブの詳細 ] パネルの [Git ] 見出しの下から、または Git プロバイダー を使用するように設定された任意のタスクからアクセスできます。

ダイアログにアクセスするために表示されるオプションは、タスクの種類と、ジョブに git 参照が既に設定されているかどうかによって異なります。 ダイアログを起動するボタンには、 Git 設定の追加編集 、または Git 参照の追加 が含まれます。

[Git 情報 ] ダイアログ ( [ジョブの詳細 ] パネルでアクセスする場合は [Git ] と表示されているだけです) で、次の詳細を入力します。

  • Git リポジトリの URL
  • ドロップダウンリストから Git プロバイダー を選択します。
  • [Git 参照 ] フィールドに、実行するソース コードのバージョンに対応するブランチ、タグ、またはコミットの識別子を入力します。
  • ドロップダウンから ブランチタグ 、または コミット を選択します。
注記

ダイアログに「 このアカウントの Git 資格情報がありません」と表示される場合があります。資格情報を追加します 。 リモート Git リポジトリを参照として使用する前に、そのリポジトリを構成する必要があります。 「Databricks Git フォルダー (Repos) の設定」を参照してください。

ジョブの実行期間またはストリーミング バックログ メトリクスのしきい値を構成する

備考

プレビュー

Databricks ジョブのストリーミング可観測性は パブリック プレビュー段階です。

ジョブ 実行 duration または ストリーミング backlog メトリクス のオプションのしきい値を構成できます。 期間またはストリーミングメトリクスのしきい値を設定するには、 ジョブの詳細 パネルで 「期間とストリーミングバックログのしきい値 」をクリックします。

ジョブの予想完了時間と最大完了時間など、ジョブの期間のしきい値を設定するには、 メトリクス ドロップダウン メニューで [実行期間 ] を選択します。 「警告 」フィールドに期間を入力して、ジョブの予想完了時間を設定します。ジョブがこのしきい値を超えると、イベントがトリガーされます。 このイベントを使用して、ジョブの実行が遅いときに通知できます。 「低速ジョブの通知を構成する」を参照してください。ジョブの最大完了時間を設定するには、[ タイムアウト ] フィールドに最大時間を入力します。 この時間内にジョブが完了しない場合、Databricks はジョブのステータスを「タイムアウト」に設定します。

ストリーミング バックログ メトリクスのしきい値を設定するには、 メトリクス ドロップダウン メニューでメトリクスを選択し、しきい値の値を入力します。 ストリーミング ソースでサポートされている特定のメトリクスについては、「 ストリーミング タスクのメトリクスを表示する」を参照してください。

しきい値を超えたためにイベントがトリガーされた場合は、イベントを使用して通知を送信できます。 「低速ジョブの通知を構成する」を参照してください。

オプションで、タスクの期間のしきい値を指定できます。 「タスクの実行期間のしきい値を構成する」または「ストリーミング バックログ メトリクス」を参照してください。