ジョブ実行の表示と管理
この記事では、アクセス権のあるジョブの表示、ジョブの実行履歴の表示、およびジョブ実行の詳細の表示のために Databricks UI で使用できる機能について説明します。 Databricks CLI を使用してジョブを表示し、ジョブを実行する方法について学ぶには、CLI コマンドdatabricks jobs list -h
、 databricks jobs get -h
、およびdatabricks jobs run-now -h
を実行します。 Jobs API の使用方法については、 「 Jobs API 」を参照してください。
ジョブの表示
アクセスできるジョブのリストを表示するには、サイドバーの 「ワークフロー」 をクリックします 。ワークフロー UI の [ジョブ] タブには、ジョブの作成者、ジョブのトリガー (存在する場合)、最後の実行の結果など、使用可能なすべてのジョブに関する情報が一覧表示されます。
ジョブ リストに表示される列を変更するには、列をクリックして 選択または選択解除します。
[ジョブ] リストでジョブをフィルター処理できます。
キーワードを使用する。 このワークスペースでジョブ制限の引き上げ機能を有効にしている場合、キーワードによる検索は、名前、ジョブ ID、およびジョブ タグ フィールドに対してのみサポートされます。
自分が所有するジョブのみを選択する。
アクセス権限のあるすべてのジョブを選択します。
タグの使用。キーのみで作成されたタグを検索するには、検索ボックスにキーを入力します。 キーと値で作成されたタグを検索するには、キー、値、またはキーと値の両方で検索できます。 たとえば、キー
department
と値finance
を持つタグの場合、department
またはfinance
を検索して、一致するジョブを見つけることができます。 キーと値で検索するには、キーと値をコロンで区切って入力します。たとえば、department:finance
.
任意の列ヘッダーをクリックして、ジョブのリスト (降順または昇順) をその列で並べ替えることもできます。 ジョブ制限の引き上げ機能が有効になっている場合、 Name
、 Job ID
、または Created by
でのみ並べ替えることができます。 デフォルトの並べ替えは、昇順で Name
されます。
クリックすると 、ジョブのアクション (ジョブの削除など) にアクセスできます。
ジョブの実行を表示する
Apache Airflow や Azure Data Factory などの外部オーケストレーション ツールによって開始された実行を含め、アクセスできるすべてのジョブについて、現在実行中および最近完了した実行の一覧を表示できます。 最近のジョブ実行のリストを表示するには:
サイドバー の [ワークフロー] をクリックします 。
[ 名前 ] 列で、ジョブ名をクリックします。 [実行] タブが表示され、アクティブな実行と完了した実行のマトリックス ビューとリスト ビューが表示されます。
マトリックス ビューには、各ジョブ タスクを含むジョブの実行履歴が表示されます。
マトリックスの [ 実行の合計期間 ] 行には、実行の合計期間と実行の状態が表示されます。 開始時刻、期間、ステータスなど、実行の詳細を表示するには、[ 実行の合計期間 ] 行のバーにカーソルを合わせます。
[タスク] 行の各セルは、タスクとそれに対応するタスクの状態を表します。開始時刻、期間、クラスター、状態など、各タスクの詳細を表示するには、そのタスクのセルにカーソルを合わせます。
ジョブ実行バーとタスク実行バーは、実行の状態を示すために色分けされています。 成功した実行は緑、失敗した実行は赤、スキップされた実行はピンクです。 個々のジョブ実行バーとタスク実行バーの高さは、実行時間を視覚的に示します。
予想完了時間を設定した場合、実行時間が設定された時間を超えると、マトリックス ビューに警告が表示されます。
デフォルトでは、実行リストビューには次の情報が表示されます。
実行の開始時刻。
実行識別子。
実行がジョブ スケジュールまたは API 要求によってトリガーされたか、手動で開始されたか。
現在実行中のジョブの経過時間、または完了した実行の合計実行時間。 期間が設定された 予想完了時間を超えると、警告が表示されます。
Spark ログへのリンク。
実行のステータス (
Queued
、Pending
、Running
、Skipped
、Succeeded
、Failed
、Terminating
、Terminated
、Internal Error
、Timed Out
、Canceled
、Canceling
、またはWaiting for Retry
のいずれかです。クリック すると、実行のコンテキスト固有のアクション (アクティブな実行の停止や完了した実行の削除など) にアクセスできます。
実行リストビューに表示される列を変更するには、 をクリックし 、列を選択または選択解除します。
ジョブ実行 の詳細を表示するには、実行リストビューの「 開始時刻 」列で実行のリンクをクリックします。 このジョブの最新の成功した実行の詳細を表示するには、[ 最後に成功した実行に移動] をクリックします。
Databricks では、ジョブの実行履歴が最大 60 日間保持されます。 ジョブの実行を保持する必要がある場合は、 Databricks 有効期限が切れる前に結果をエクスポートすることをお勧めします。 詳細については、「 ジョブ実行結果のエクスポート」を参照してください。
ジョブ実行の詳細の表示
ジョブ実行の詳細ページには、ジョブ出力と、ジョブ実行内の各タスクの成功または失敗に関する情報を含むログへのリンクが含まれています。 ジョブの実行の詳細には、ジョブの [実行] タブからアクセスできます。 [実行] タブからジョブ実行の詳細を表示するには、[実行] リスト ビューの [開始時刻] 列で実行のリンクをクリックします。ジョブの [実行 ] タブに戻るには、[ ジョブ ID ] の値をクリックします。
ジョブに複数のタスクが含まれている場合は、タスクをクリックして、次のようなタスク実行の詳細を表示します。
タスクを実行したクラスター
タスクの Spark UI
タスクのログ
タスクのメトリクス
[ ジョブ ID ] の値をクリックして、ジョブの [実行 ] タブに戻ります。
タスク実行履歴の表示
成功した実行と失敗した実行を含むタスクの実行履歴を表示するには:
[ ジョブ実行の詳細 ] ページでタスクをクリックします。 [タスク実行の詳細] ページが表示されます。
実行履歴ドロップダウンメニューでタスク実行を選択します。
最近のジョブ実行の表示
Apache Airflow や Azure Data Factory などの外部オーケストレーション ツールによって開始された実行を含め、アクセスできるワークスペース内のすべてのジョブについて、現在実行中の実行と最近完了した実行の一覧を表示できます。 最近のジョブ実行のリストを表示するには:
サイドバー の [ワークフロー] をクリックします 。
[ ジョブの実行 ] タブをクリックして、[ジョブの実行] リストを表示します。
[ 完了した実行数 ] グラフには、過去 48 時間に完了したジョブの実行数が表示されます。 デフォルトによって、グラフには失敗したジョブ実行、スキップされたジョブ実行、および成功したジョブ実行が表示されます。 グラフをフィルター処理して、特定の実行ステータスを表示したり、グラフを特定の時間範囲に制限したりすることもできます。 [ ジョブの実行 ] タブには、過去 67 日間のジョブの実行のテーブルも含まれています。 デフォルトでは、テーブルには失敗したジョブ実行、スキップされたジョブ実行、および成功したジョブ実行の詳細が含まれます。
注
[完了した実行数] グラフは、[自分が所有] をクリックした場合にのみ表示されます。
実行ステータスで 完了実行数を フィルタリングできます。
グラフを更新して、現在実行中のジョブまたは実行待ちのジョブを表示するには、[ アクティブな実行] をクリックします。
グラフを更新して、失敗した実行、成功した実行、スキップされた実行など、完了した実行のみを表示するには、[ 完了した実行] をクリックします。
過去 48 時間に正常に完了した実行のみを表示するようにグラフを更新するには、[ 成功した実行] をクリックします。
スキップされた実行のみを表示するようにグラフを更新するには、[ スキップされた実行] をクリックします。 ワークスペース内の並列実行の最大数を超えたか、ジョブがジョブ構成で指定された並列実行の最大数を超えたため、実行はスキップされます。
エラー状態で完了した実行のみを表示するようにグラフを更新するには、[ 失敗した実行] をクリックします。
フィルター ボタンのいずれかをクリックすると、実行テーブルの実行の一覧も更新され、選択した状態に一致するジョブの実行のみが表示されます。
[完了実行数] グラフに表示される時間範囲を制限するには、グラフ内でカーソルをクリックしてドラッグし、時間範囲を選択します。グラフと実行テーブルが更新され、選択した時間範囲の実行のみが表示されます。
デフォルトでは、実行テーブル内の実行のリストには次の情報が表示されます。
実行の開始時刻。
実行に関連付けられているジョブの名前。
ジョブの実行に使用するユーザー名。
実行がジョブ スケジュールまたは API 要求によってトリガーされたか、手動で開始されたか。
現在実行中のジョブの経過時間、または完了した実行の合計実行時間。 期間が設定された 予想完了時間を超えると、警告が表示されます。
実行のステータス (
Queued
、Pending
、Running
、Skipped
、Succeeded
、Failed
、Terminating
、Terminated
、Internal Error
、Timed Out
、Canceled
、Canceling
、またはWaiting for Retry
のいずれかです。実行のパラメーター。
クリック すると、実行のコンテキスト固有のアクション (アクティブな実行の停止や完了した実行の削除など) にアクセスできます。
実行リストに表示される列を変更するには、列をクリックして 選択または選択解除します。
上位 5 つの エラーの種類の表には、選択した時間範囲で最も頻度の高いエラーの種類の一覧が表示され、ワークスペース内のジョブの問題の最も一般的な原因をすばやく確認できます。
ジョブ実行 の詳細を表示するには、実行の [ 開始時刻 ] 列のリンクをクリックします。 ジョブの詳細を表示するには、[ ジョブ ] 列のジョブ名をクリックします。
ジョブのリネージ情報の表示
ワークスペースで Unity Catalog が有効になっている場合は、ワークフロー内の任意の Unity Catalog テーブルの リネージ情報 を表示できます。 ワークフローでリネージ情報が使用可能な場合は、ジョブの [Job details] (ジョブの詳細) パネル、ジョブ実行の [Job run details] (ジョブ実行の詳細) パネル、またはタスク実行の [Task run details] (タスク実行の詳細) パネルに、アップストリームテーブルとダウンストリームテーブルの数を示すリンクが表示されます。リンクをクリックすると、テーブルの一覧が表示されます。 テーブルをクリックすると、「 カタログエクスプローラ」(Catalog Explorer) で詳細情報が表示されます。
ジョブ実行結果のエクスポート
すべてのジョブの種類のノートブック実行結果とジョブ実行ログをエクスポートできます。
ノートブックの実行結果のエクスポート
ジョブの実行は、結果をエクスポートすることで永続化できます。 ノートブック ジョブの実行では、レンダリングされたノートブックを エクスポート して、後で Databricks ワークスペースに インポート できます。
1 つのタスクを含むジョブのノートブック実行結果をエクスポートするには:
ジョブの詳細ページで、[完了した実行 (過去 60 日間)] テーブルの [実行] 列にある 実行 の [詳細の表示] リンクをクリックします。
[ HTML にエクスポート] をクリックします。
複数のタスクを含むジョブのノートブック実行結果をエクスポートするには:
ジョブの詳細ページで、[完了した実行 (過去 60 日間)] テーブルの [実行] 列にある 実行 の [詳細の表示] リンクをクリックします。
エクスポートするノートブック タスクをクリックします。
[ HTML にエクスポート] をクリックします。
ジョブ実行ログのエクスポート
ジョブ実行のログをエクスポートすることもできます。 ジョブ API を介して DBFS または S3 にログを自動的に配信するようにジョブを設定できます。 Jobs API の新しいジョブの作成操作 (POST /jobs/create
) に渡された要求本文の new_cluster.cluster_log_conf
オブジェクトを参照してください。