ジョブ API 2.0

重要

この記事では、Jobs API の 2.0 バージョンについて説明します。ただし、Databricks では、新規および既存のクライアントとスクリプトに Jobs API 2.2 を使用することをお勧めします。 Jobs API の 2.2 バージョンでの変更点の詳細については、「 Jobs API 2.1 から 2.2 への更新」を参照してください。

Jobs API を使用すると、ジョブを作成、編集、および削除できます。ジョブ API への要求の最大許容サイズは 10 MB です。

Databricks ジョブを使用した複数のタスクのオーケストレーションをサポートする Jobs API の更新の詳細については、「 Jobs API 2.0 から 2.1 への更新」および「 Jobs API 2.1 から 2.2 への更新」を参照してください。

警告

シークレットをハードコーディングしたり、プレーンテキストで保存したりしないでください。 Secrets API を使用して、Databricks CLI でシークレットを管理します。シークレット・ユーティリティ (dbutils.secrets) を使用しますノートブックとジョブのシークレットを参照します。

注：

ジョブ API リクエストを行うときに 500 レベルのエラーが発生した場合、Databricks では最大 10 分間 (再試行の間隔は 30 秒以上) リクエストを再試行することをお勧めします。

重要

Databricks REST APIsにアクセスするには、認証が必要です。

創造する

エンドポイント	HTTP メソッド
`2.0/jobs/create`	`POST`

新しいジョブを作成します。

例

この例では、毎晩午後 10 時 15 分に JAR タスクを実行するジョブを作成します。

依頼

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/create \
--data @create-job.json \
| jq .

create-job.json:

{
  "name": "Nightly model training",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "r3.xlarge",
    "aws_attributes": {
      "availability": "ON_DEMAND"
    },
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "email_notifications": {
    "on_start": [],
    "on_success": [],
    "on_failure": []
  },
  "webhook_notifications": {
    "on_start": [
      {
        "id": "bf2fbd0a-4a05-4300-98a5-303fc8132233"
      }
    ],
    "on_success": [
      {
        "id": "bf2fbd0a-4a05-4300-98a5-303fc8132233"
      }
    ],
    "on_failure": []
  },
  "notification_settings": {
    "no_alert_for_skipped_runs": false,
    "no_alert_for_canceled_runs": false,
    "alert_on_last_attempt": false
  },
  "timeout_seconds": 3600,
  "max_retries": 1,
  "schedule": {
    "quartz_cron_expression": "0 15 22 * * ?",
    "timezone_id": "America/Los_Angeles"
  },
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
ソリューションに適したフィールドを含む create-job.json の内容。

この例では、 .netrc file と jq.

応答

{
  "job_id": 1
}

要求の構造

重要

新しいジョブクラスターでジョブを実行すると、そのジョブは Jobs コンピュート (自動化) ワークロードとして扱われ、Jobs コンピュート価格が適用されます。
既存のAll-Purposeクラスターでジョブを実行すると、そのジョブはAll-Purpose コンピュート価格の対象となる All-Purpose コンピュート (インタラクティブ) ワークロードとして扱われます。

フィールド名	タイプ	説明
`existing_cluster_id` または `new_cluster`	`STRING` または新規クラスター	existing_cluster_idの場合、このジョブのすべての実行に使用される既存のクラスターの ID。既存のクラスターでジョブを実行している場合、クラスターが応答を停止した場合は、クラスターを手動で再起動する必要がある場合があります。信頼性を高めるために、新しいクラスターでジョブを実行することをお勧めします。 new_clusterの場合は、実行ごとに作成されるクラスターの説明。 PipelineTask を指定する場合、このフィールドは空にすることができます。
`notebook_task` または `spark_jar_task` 、 `spark_python_task` 、 `spark_submit_task` 、または `pipeline_task` または `run_job_task`	ノートブックタスク OR SparkJarTask OR SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask	ノートブックの場合、このジョブがノートブックを実行する必要があることを示します。このフィールドを spark_jar_task と組み合わせて指定することはできません。 spark_jar_taskの場合、このジョブで JAR を実行する必要があることを示します。 spark_python_taskの場合、このジョブで Python ファイルを実行することを示します。 spark_submit_taskの場合、このジョブを spark submit スクリプトで起動する必要があることを示します。 If パイプラインは、このジョブが Delta Live Tables パイプラインを実行する必要があることを示します。実行されている場合、このジョブは別のジョブを実行する必要があることを示します。
`name`	`STRING`	ジョブのオプションの名前。デフォルト値は `Untitled`です。
`libraries`	ライブラリの配列	ジョブを実行するクラスターにインストールするライブラリのオプションの一覧。デフォルト値は空のリストです。
`email_notifications`	JobEmail通知	このジョブの実行が開始および完了したとき、およびこのジョブが削除されたときに通知されるEメールアドレスのオプションセット。デフォルトの動作は、電子メールを送信しないことです。
`webhook_notifications`	ウェブフック通知	このジョブの実行が開始、完了、または失敗したときに通知するシステム宛先のオプション・セット。
`notification_settings`	ジョブ通知設定	このジョブの各 `email_notifications` と `webhook_notifications` に通知を送信するときに使用するオプションの通知設定。
`timeout_seconds`	`INT32`	このジョブの各実行に適用されるオプションのタイムアウト。デフォルトの動作では、タイムアウトはありません。
`max_retries`	`INT32`	失敗した実行を再試行するオプションの最大回数。実行が `FAILED` result_state または `INTERNAL_ERROR` `life_cycle_state`で完了すると、実行は失敗と見なされます。値 -1 は無期限に再試行することを意味し、値 0 は再試行しないことを意味します。デフォルトの動作では、再試行は行われません。
`min_retry_interval_millis`	`INT32`	失敗した実行の開始とその後の再試行実行の間の最小間隔 (ミリ秒単位) (オプション)。デフォルトの動作では、失敗した実行はすぐに再試行されます。
`retry_on_timeout`	`BOOL`	ジョブがタイムアウトしたときにジョブを再試行するかどうかを指定するオプションのポリシー。デフォルトの動作では、タイムアウト時に再試行されません。
`schedule`	クロンスケジュール	このジョブのオプションの定期的なスケジュール。デフォルトの動作は、ジョブ UI で [ 今すぐ実行 ] をクリックするか、`runNow` に API 要求を送信することによってトリガーされたジョブの実行です。
`max_concurrent_runs`	`INT32`	ジョブの並列実行の最大許容数 (オプション)。同じジョブの複数の実行を同時に実行できるようにする場合は、この値を設定します。これは、たとえば、頻繁なスケジュールでジョブをトリガーし、連続した実行を互いにオーバーラップさせたい場合や、入力パラメーターが異なる複数の実行をトリガーする場合に便利です。この設定は、新しい実行にのみ影響します。たとえば、ジョブの同時実行が 4 で、4 つの並列アクティブ実行があるとします。その後、コンカレンシーを 3 に設定しても、アクティブな実行は強制終了されません。ただし、それ以降は、アクティブな実行が 3 つ未満でない限り、新しい実行はスキップされます。この値は 1000 を超えることはできません。この値を 0 に設定すると、すべての新しい実行がスキップされます。デフォルトの動作では、1 つの並列実行のみが許可されます。

回答の構成

フィールド名	タイプ	説明
`job_id`	`INT64`	新しく作成されたジョブの正規識別子。

{
  "jobs": [
    {
      "job_id": 1,
      "settings": {
        "name": "Nightly model training",
        "new_cluster": {
          "spark_version": "7.3.x-scala2.12",
          "node_type_id": "r3.xlarge",
          "aws_attributes": {
            "availability": "ON_DEMAND"
          },
          "num_workers": 10
        },
        "libraries": [
          {
            "jar": "dbfs:/my-jar.jar"
          },
          {
            "maven": {
              "coordinates": "org.jsoup:jsoup:1.7.2"
            }
          }
        ],
        "email_notifications": {
          "on_start": [],
          "on_success": [],
          "on_failure": []
        },
        "timeout_seconds": 100000000,
        "max_retries": 1,
        "schedule": {
          "quartz_cron_expression": "0 15 22 * * ?",
          "timezone_id": "America/Los_Angeles",
          "pause_status": "UNPAUSED"
        },
        "spark_jar_task": {
          "main_class_name": "com.databricks.ComputeModels"
        }
      },
      "created_time": 1457570074236
    }
  ]
}

回答の構成

フィールド名	タイプ	説明
`jobs`	ジョブの配列	ジョブの一覧。

削除

エンドポイント	HTTP メソッド
`2.0/jobs/delete`	`POST`

ジョブを削除し、 JobSettings.email_notificationsで指定したアドレスにEメールを送信します。ジョブがすでに削除されている場合、アクションは発生しません。ジョブが削除されると、ジョブの詳細も実行履歴もジョブ UI または API に表示されません。この要求が完了すると、ジョブは削除されることが保証されます。ただし、この要求を受信する前にアクティブだった実行は、まだアクティブである可能性があります。これらは非同期的に終了します。

例

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/delete \
--data '{ "job_id": <job-id> }'

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<job-id> は、ジョブの ID ( 123など) に置き換えます。

この例では、 .netrc ファイル。

要求の構造

フィールド名	タイプ	説明
`job_id`	`INT64`	削除するジョブの正規識別子。このフィールドは必須です。

取得

エンドポイント	HTTP メソッド
`2.0/jobs/get`	`GET`

1 つのジョブに関する情報を取得します。

例

依頼

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/get?job_id=<job-id>' \
| jq .

又は：

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/get \
--data job_id=<job-id> \
| jq .

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<job-id> は、ジョブの ID ( 123など) に置き換えます。

この例では、 .netrc file と jq.

応答

{
  "job_id": 1,
  "settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "r3.xlarge",
      "aws_attributes": {
        "availability": "ON_DEMAND"
      },
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "email_notifications": {
      "on_start": [],
      "on_success": [],
      "on_failure": []
    },
    "webhook_notifications": {
      "on_start": [
        {
          "id": "bf2fbd0a-4a05-4300-98a5-303fc8132233"
        }
      ],
      "on_success": [
        {
          "id": "bf2fbd0a-4a05-4300-98a5-303fc8132233"
        }
      ],
      "on_failure": []
    },
    "notification_settings": {
      "no_alert_for_skipped_runs": false,
      "no_alert_for_canceled_runs": false,
      "alert_on_last_attempt": false
    },
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 * * ?",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  },
  "created_time": 1457570074236
}

要求の構造

フィールド名	タイプ	説明
`job_id`	`INT64`	情報を取得するジョブの正規識別子。このフィールドは必須です。

回答の構成

フィールド名	タイプ	説明
`job_id`	`INT64`	このジョブの正規識別子。
`creator_user_name`	`STRING`	作成者のユーザー名。ユーザーが削除された場合、このフィールドは応答に含まれません。
`settings`	ジョブ設定	このジョブとそのすべての実行の設定。これらの設定は、リセットまたは更新エンドポイントを使用して更新できます。
`created_time`	`INT64`	このジョブが作成された時刻 (エポックミリ秒) (1970 年 1 月 1 日からのミリ秒)。

リセット

エンドポイント	HTTP メソッド
`2.0/jobs/reset`	`POST`

特定のジョブのすべての設定を上書きします。更新エンドポイントを使用して、ジョブ設定を部分的に更新します。

例

この要求例では、ジョブ 2 は作成例のジョブ 1 と同じになります。

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/reset \
--data @reset-job.json \
| jq .

reset-job.json:

{
  "job_id": 2,
  "new_settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "r3.xlarge",
      "aws_attributes": {
        "availability": "ON_DEMAND"
      },
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "email_notifications": {
      "on_start": [],
      "on_success": [],
      "on_failure": []
    },
    "webhook_notifications": {
      "on_start": [
        {
          "id": "bf2fbd0a-4a05-4300-98a5-303fc8132233"
        }
      ],
      "on_success": [
        {
          "id": "bf2fbd0a-4a05-4300-98a5-303fc8132233"
        }
      ],
      "on_failure": []
    },
    "notification_settings": {
      "no_alert_for_skipped_runs": false,
      "no_alert_for_canceled_runs": false,
      "alert_on_last_attempt": false
    },
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 * * ?",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  }
}

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
ソリューションに適したフィールドを含む reset-job.json の内容。

この例では、 .netrc file と jq.

要求の構造

フィールド名

タイプ

説明

job_id

INT64

リセットするジョブの正規識別子。このフィールドは必須です。

new_settings

ジョブ設定

ジョブの新しい設定。これらの設定は、古い設定を完全に置き換えます。

フィールド JobSettings.timeout_seconds への変更は、アクティブな実行に適用されます。他のフィールドへの変更は、将来の実行にのみ適用されます。

アップデート

エンドポイント	HTTP メソッド
`2.0/jobs/update`	`POST`

既存のジョブの特定の設定を追加、変更、または削除します。リセットエンドポイントを使用して、すべてのジョブ設定を上書きします。

例

この要求例では、ライブラリを削除し、作成例で定義されたジョブ 1 に Eメール通知設定を追加します。

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/update \
--data @update-job.json \
| jq .

update-job.json:

{
  "job_id": 1,
  "new_settings": {
    "existing_cluster_id": "1201-my-cluster",
    "email_notifications": {
      "on_start": [ "someone@example.com" ],
      "on_success": [],
      "on_failure": []
    }
  },
  "fields_to_remove": ["libraries"]
}

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
ソリューションに適したフィールドを含む update-job.json の内容。

この例では、 .netrc file と jq.

要求の構造

フィールド名

タイプ

説明

job_id

INT64

更新するジョブの正規識別子。このフィールドは必須です。

new_settings

ジョブ設定

ジョブの新しい設定。

new_settingsで指定された最上位フィールド (配列を除く) は、完全に置き換えられます。配列は、 task_key や job_cluster_keyなどのそれぞれのキーフィールドに基づいてマージされ、同じキーを持つ配列エントリは完全に置き換えられます。配列のマージを除き、ネストされたフィールドを部分的に更新することはサポートされていません。

フィールド JobSettings.timeout_seconds への変更は、アクティブな実行に適用されます。他のフィールドへの変更は、将来の実行にのみ適用されます。

fields_to_remove

の配列 STRING

ジョブ設定の最上位フィールドを削除します。ネストされたフィールドの削除はサポートされていません ( tasks 配列と job_clusters 配列からのエントリを除く)。たとえば、このフィールドの有効な引数は次のとおりです。 ["libraries", "schedule", "tasks/task_1", "job_clusters/Default"]

このフィールドはオプションです。

今すぐ実行

重要

ワークスペースの同時タスク実行数は 1000 に制限されています。すぐに開始できない実行を要求すると、429 Too Many Requests 応答が返されます。
ワークスペースが 1 時間に作成できるジョブの数は 10000 に制限されています（「実行の送信」を含む）。この制限は、REST API およびノートブックワークフローによって作成されたジョブにも影響します。
ワークスペースには、最大 12000 個の保存されたジョブを含めることができます。
ジョブには、最大 100 個のタスクを含めることができます。

エンドポイント	HTTP メソッド
`2.0/jobs/run-now`	`POST`

ジョブを今すぐ実行し、トリガーされた実行の run_id を返します。

ヒント

ここで Create を Run と一緒に呼び出すと、代わりに Run submit エンドポイントを使用できるため、ジョブを作成しなくてもワークロードを直接送信できます。

例

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/run-now \
--data @run-job.json \
| jq .

run-job.json:

ノートブックジョブの要求の例を次に示します。

{
  "job_id": 1,
  "notebook_params": {
    "name": "john doe",
    "age": "35"
  }
}

JAR ジョブの要求の例を次に示します。

{
  "job_id": 2,
  "jar_params": [ "john doe", "35" ]
}

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
ソリューションに適したフィールドを含む run-job.json の内容。

この例では、 .netrc file と jq.

要求の構造

フィールド名	タイプ	説明
`job_id`	`INT64`
`jar_params`	の配列 `STRING`	JARタスクを持つジョブのパラメーターのリスト。`"jar_params": ["john doe", "35"]`。パラメーターは、Spark JAR タスクで指定されたメインクラスの main 関数を呼び出すために使用されます。 `run-now`で指定しない場合、デフォルトで空のリストになります。jar_paramsノートブックと併用することはできません。このフィールドの JSON 表現 (つまり、 `{"jar_params":["john doe","35"]}`) は 10,000 バイトを超えることはできません。
`notebook_params`	ParamPair のマップ	ノートブックタスクを含むジョブのキーから値へのマップ。 `"notebook_params": {"name": "john doe", "age": "35"}`。マップはノートブックに渡され、 dbutils.widgets.get 関数を使用してアクセスできます。 `run-now`で指定しない場合、トリガーされた実行はジョブの基本パラメーターを使用します。ノートブックを jar_params と併せて指定することはできません。このフィールドの JSON 表現 (つまり、 `{"notebook_params":{"name":"john doe","age":"35"}}`) は 10,000 バイトを超えることはできません。
`python_params`	の配列 `STRING`	Pythonタスクを持つジョブのパラメーターのリスト。`"python_params": ["john doe", "35"]`。このパラメーターは Python コマンドラインパラメーターとしてファイルに渡されます。 `run-now`時に指定した場合、ジョブ設定で指定したパラメーターが上書きされます。このフィールドの JSON 表現 (つまり、 `{"python_params":["john doe","35"]}`) は 10,000 バイトを超えることはできません。
`spark_submit_params`	の配列 `STRING`	spark submit タスクを含むジョブのパラメーターのリスト (例: `"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]`。パラメーターは、コマンドラインパラメーターとしてspark-submitスクリプトに渡されます。 `run-now`時に指定した場合、ジョブ設定で指定したパラメーターが上書きされます。このフィールドの JSON 表現は 10,000 バイトを超えることはできません。
`idempotency_token`	`STRING`	ジョブ実行要求のべき等性を保証するオプションのトークン。指定されたトークンを持つ実行が既に存在する場合、要求は新しい実行を作成せず、代わりに既存の実行の ID を返します。指定されたトークンを使用した実行が削除されると、エラーが返されます。べき等トークンを指定すると、失敗したときに、要求が成功するまで再試行できます。 Databricks では、そのべき等トークンを使用して 1 つの実行が開始されることが保証されます。このトークンは、最大で 64 文字にする必要があります。詳細については、「ジョブのべき等性を確保する方法」を参照してください。

回答の構成

フィールド名	タイプ	説明
`run_id`	`INT64`	新しくトリガーされた実行のグローバルに一意の ID。
`number_in_job`	`INT64`	ジョブのすべての実行のうち、この実行のシーケンス番号。

実行 submit

重要

ワークスペースの同時タスク実行数は 1000 に制限されています。すぐに開始できない実行を要求すると、429 Too Many Requests 応答が返されます。
ワークスペースが 1 時間に作成できるジョブの数は 10000 に制限されています（「実行の送信」を含む）。この制限は、REST API およびノートブックワークフローによって作成されたジョブにも影響します。
ワークスペースには、最大 12000 個の保存されたジョブを含めることができます。
ジョブには、最大 100 個のタスクを含めることができます。

エンドポイント	HTTP メソッド
`2.0/jobs/runs/submit`	`POST`

1 回限りの実行を送信します。このエンドポイントを使用すると、ジョブを作成せずにワークロードを直接送信できます。 jobs/runs/get API を使用して、ジョブが送信された後の実行状態を確認します。

例

依頼

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/submit \
--data @submit-job.json \
| jq .

submit-job.json:

{
  "run_name": "my spark task",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "r3.xlarge",
    "aws_attributes": {
      "availability": "ON_DEMAND"
    },
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
ソリューションに適したフィールドを含む submit-job.json の内容。

この例では、 .netrc file と jq.

応答

{
  "run_id": 123
}

要求の構造

重要

新しいジョブクラスターでジョブを実行すると、そのジョブは Jobs コンピュート (自動化) ワークロードとして扱われ、Jobs コンピュート価格が適用されます。
既存のAll-Purposeクラスターでジョブを実行すると、そのジョブはAll-Purpose コンピュート価格の対象となる All-Purpose コンピュート (インタラクティブ) ワークロードとして扱われます。

フィールド名	タイプ	説明
`existing_cluster_id` または `new_cluster`	`STRING` または新規クラスター	existing_cluster_idの場合、このジョブのすべての実行に使用される既存のクラスターの ID。既存のクラスターでジョブを実行している場合、クラスターが応答を停止した場合は、クラスターを手動で再起動する必要がある場合があります。信頼性を高めるために、新しいクラスターでジョブを実行することをお勧めします。 new_clusterの場合は、実行ごとに作成されるクラスターの説明。 PipelineTask を指定する場合、このフィールドは空にすることができます。
`notebook_task` または `spark_jar_task` 、 `spark_python_task` 、 `spark_submit_task` 、または `pipeline_task` または `run_job_task`	ノートブックタスク OR SparkJarTask OR SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask	ノートブックの場合、このジョブがノートブックを実行する必要があることを示します。このフィールドを spark_jar_task と組み合わせて指定することはできません。 spark_jar_taskの場合、このジョブで JAR を実行する必要があることを示します。 spark_python_taskの場合、このジョブで Python ファイルを実行することを示します。 spark_submit_taskの場合、このジョブを spark submit スクリプトで起動する必要があることを示します。 If パイプラインは、このジョブが Delta Live Tables パイプラインを実行する必要があることを示します。実行されている場合、このジョブは別のジョブを実行する必要があることを示します。
`run_name`	`STRING`	実行のオプションの名前。デフォルト値は `Untitled`です。
`webhook_notifications`	ウェブフック通知	このジョブの実行が開始、完了、または失敗したときに通知するシステム宛先のオプション・セット。
`notification_settings`	ジョブ通知設定	この実行の各 `webhook_notifications` に通知を送信するときに使用されるオプションの通知設定。
`libraries`	ライブラリの配列	ジョブを実行するクラスターにインストールするライブラリのオプションの一覧。デフォルト値は空のリストです。
`timeout_seconds`	`INT32`	このジョブの各実行に適用されるオプションのタイムアウト。デフォルトの動作では、タイムアウトはありません。
`idempotency_token`	`STRING`	ジョブ実行要求のべき等性を保証するオプションのトークン。指定されたトークンを持つ実行が既に存在する場合、要求は新しい実行を作成せず、代わりに既存の実行の ID を返します。指定されたトークンを使用した実行が削除されると、エラーが返されます。べき等トークンを指定すると、失敗したときに、要求が成功するまで再試行できます。 Databricks では、そのべき等トークンを使用して 1 つの実行が開始されることが保証されます。このトークンは、最大で 64 文字にする必要があります。詳細については、「ジョブのべき等性を確保する方法」を参照してください。

回答の構成

フィールド名	タイプ	説明
`run_id`	`INT64`	新しく送信された実行の正規識別子。

実行 list

エンドポイント	HTTP メソッド
`2.0/jobs/runs/list`	`GET`

リストは開始時刻の降順で実行されます。

注：

実行は 60 日後に自動的に削除されます。 60 日を超えて参照する場合は、有効期限が切れる前に古い実行結果を保存する必要があります。 UI を使用してエクスポートするには、「ジョブ実行結果のエクスポート」を参照してください。ジョブ API を使用してエクスポートするには、「エクスポートの実行」を参照してください。

例

依頼

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/list?job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .

又は：

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/list \
--data 'job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<job-id> は、ジョブの ID ( 123など) に置き換えます。
「trueまたはfalse<true-false>」。
<offset> を offset 値に置き換えます。
<limit> を limit 値に置き換えます。
<run-type> を run_type 値に置き換えます。

この例では、 .netrc file と jq.

応答

{
  "runs": [
    {
      "job_id": 1,
      "run_id": 452,
      "number_in_job": 5,
      "state": {
        "life_cycle_state": "RUNNING",
        "state_message": "Performing action"
      },
      "task": {
        "notebook_task": {
          "notebook_path": "/Users/donald@duck.com/my-notebook"
        }
      },
      "cluster_spec": {
        "existing_cluster_id": "1201-my-cluster"
      },
      "cluster_instance": {
        "cluster_id": "1201-my-cluster",
        "spark_context_id": "1102398-spark-context-id"
      },
      "overriding_parameters": {
        "jar_params": ["param1", "param2"]
      },
      "start_time": 1457570074236,
      "end_time": 1457570075149,
      "setup_duration": 259754,
      "execution_duration": 3589020,
      "cleanup_duration": 31038,
      "run_duration": 3879812,
      "trigger": "PERIODIC"
    }
  ],
  "has_more": true
}

要求の構造

フィールド名	タイプ	説明
`active_only` または `completed_only`	`BOOL` または `BOOL`	active_only が `true`の場合、アクティブな実行のみが結果に含まれます。それ以外の場合は、アクティブな実行と完了した実行の両方が一覧表示されます。アクティブ実行とは、`PENDING`、`RUNNING`、または `TERMINATING` RunLifecycleState での実行です。このフィールドは、completed_only が `true`の場合`true`できません。 completed_only が `true`の場合、完了した実行のみが結果に含まれます。それ以外の場合は、アクティブな実行と完了した実行の両方が一覧表示されます。このフィールドは、active_only が `true`の場合`true`できません。
`job_id`	`INT64`	実行をリストするジョブ。省略すると、ジョブサービスにはすべてのジョブからの実行が一覧表示されます。
`offset`	`INT32`	返される最初の実行のオフセット (最新の実行に対する相対値)。
`limit`	`INT32`	返す実行の数。この値は 0 より大きく 1000 未満である必要があります。デフォルト値は 20 です。リクエストで制限が 0 に指定されている場合、サービスは代わりに最大制限を使用します。
`run_type`	`STRING`	返す実行の種類。実行タイプの詳細については、「実行」を参照してください。

回答の構成

フィールド名	タイプ	説明
`runs`	実行の配列	最近開始されたものから最も少ないものまで、実行の一覧。
`has_more`	`BOOL`	true の場合、指定されたフィルターに一致する追加の実行を一覧表示できます。

実行取得

エンドポイント	HTTP メソッド
`2.0/jobs/runs/get`	`GET`

実行のメタデータを取得します。

注：

実行は 60 日後に自動的に削除されます。 60 日を超えて参照する場合は、有効期限が切れる前に古い実行結果を保存する必要があります。 UI を使用してエクスポートするには、「ジョブ実行結果のエクスポート」を参照してください。ジョブ API を使用してエクスポートするには、「エクスポートの実行」を参照してください。

例

依頼

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get?run_id=<run-id>' \
| jq .

又は：

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get \
--data run_id=<run-id> \
| jq .

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<run-id> は、実行の ID ( 123など) に置き換えます。

この例では、 .netrc file と jq.

応答

{
  "job_id": 1,
  "run_id": 452,
  "number_in_job": 5,
  "state": {
    "life_cycle_state": "RUNNING",
    "state_message": "Performing action"
  },
  "task": {
    "notebook_task": {
      "notebook_path": "/Users/someone@example.com/my-notebook"
    }
  },
  "cluster_spec": {
    "existing_cluster_id": "1201-my-cluster"
  },
  "cluster_instance": {
    "cluster_id": "1201-my-cluster",
    "spark_context_id": "1102398-spark-context-id"
  },
  "overriding_parameters": {
    "jar_params": ["param1", "param2"]
  },
  "start_time": 1457570074236,
  "end_time": 1457570075149,
  "setup_duration": 259754,
  "execution_duration": 3589020,
  "cleanup_duration": 31038,
  "run_duration": 3879812,
  "trigger": "PERIODIC"
}

要求の構造

フィールド名	タイプ	説明
`run_id`	`INT64`	メタデータを取得する実行の正規識別子。このフィールドは必須です。

回答の構成

フィールド名	タイプ	説明
`job_id`	`INT64`	この実行を含むジョブの正規識別子。
`run_id`	`INT64`	実行の正規識別子。この ID は、すべてのジョブのすべての実行で一意です。
`number_in_job`	`INT64`	ジョブのすべての実行のうち、この実行のシーケンス番号。この値は 1 から始まります。
`original_attempt_run_id`	`INT64`	この実行が以前の実行試行の再試行である場合、このフィールドには元の試行の実行が含まれます。それ以外の場合は、実行と同じです。
`state`	ランステート	実行の結果とライフサイクルの状態。
`schedule`	クロンスケジュール	この実行をトリガーした cron スケジュール (定期的なスケジューラによってトリガーされた場合)。
`task`	ジョブタスク	実行によって実行されたタスク (存在する場合)。
`cluster_spec`	クラスタスペック	この実行が作成されたときのジョブのクラスター仕様のスナップショット。
`cluster_instance`	クラスタインスタンス	この実行に使用されたクラスター。新しいクラスターを使用するように実行が指定されている場合、このフィールドは、ジョブサービスが実行のクラスターを要求したときに設定されます。
`overriding_parameters`	ランパラメータ	この実行に使用されるパラメーター。
`start_time`	`INT64`	この実行が開始された時刻 (エポックミリ秒) (1970 年 1 月 1 日からのミリ秒)。これは、ジョブタスクの実行が開始される時刻ではない場合があります (たとえば、ジョブが新しいクラスターで実行されるようにスケジュールされている場合、クラスター作成呼び出しが発行される時刻です)。
`end_time`	`INT64`	この実行が終了した時刻 (エポックミリ秒) (1970 年 1 月 1 日からのミリ秒)。ジョブがまだ実行中の場合、このフィールドは 0 に設定されます。
`setup_duration`	`INT64`	クラスターのセットアップにかかった時間 (ミリ秒単位)。新しいクラスターでの実行の場合、これはクラスターの作成時間であり、既存のクラスターでの実行の場合、この時間は非常に短くする必要があります。実行の合計時間は、 `setup_duration`、 `execution_duration`、および `cleanup_duration`の合計です。 `setup_duration` フィールドは、マルチタスク・ジョブの実行で 0 に設定されます。マルチタスク・ジョブ実行の合計期間は、 `run_duration` フィールドの値です。
`execution_duration`	`INT64`	JARまたはノートブック内のコマンドの実行にかかった時間(ミリ秒単位)で、コマンドが完了、失敗、タイムアウト、キャンセル、または予期しないエラーが発生するまでです。実行の合計時間は、 `setup_duration`、 `execution_duration`、および `cleanup_duration`の合計です。 `execution_duration` フィールドは、マルチタスク・ジョブの実行で 0 に設定されます。マルチタスク・ジョブ実行の合計期間は、 `run_duration` フィールドの値です。
`cleanup_duration`	`INT64`	クラスターを終了し、関連するアーティファクトをクリーンアップするのにかかった時間 (ミリ秒単位)。実行の合計時間は、 `setup_duration`、 `execution_duration`、および `cleanup_duration`の合計です。 `cleanup_duration` フィールドは、マルチタスク・ジョブの実行で 0 に設定されます。マルチタスク・ジョブ実行の合計期間は、 `run_duration` フィールドの値です。
`run_duration`	`INT64`	ジョブの実行とそのすべての修復が完了するまでにかかった時間 (ミリ秒単位)。このフィールドは、マルチタスク・ジョブの実行にのみ設定され、タスクの実行には設定されません。タスク実行の期間は、 `setup_duration`、 `execution_duration`、および `cleanup_duration`の合計です。
`trigger`	トリガータイプ	この実行を起動したトリガーの種類。
`creator_user_name`	`STRING`	作成者のユーザー名。このフィールドは、ユーザーが削除された場合、応答に含まれません
`run_page_url`	`STRING`	実行の詳細ページへの URL。

実行結果のエクスポート

エンドポイント	HTTP メソッド
`2.0/jobs/runs/export`	`GET`

ジョブ実行タスクをエクスポートおよび取得します。

注：

ノートブックの実行のみを HTML 形式でエクスポートできます。他の種類の実行のエクスポートは失敗します。

例

依頼

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/export?run_id=<run-id>' \
| jq .

又は：

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/export \
--data run_id=<run-id> \
| jq .

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<run-id> は、実行の ID ( 123など) に置き換えます。

この例では、 .netrc file と jq.

応答

{
  "views": [ {
    "content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
    "name": "my-notebook",
    "type": "NOTEBOOK"
  } ]
}

JSON 応答から HTML ノートブックを抽出するには、この Python スクリプトをダウンロードして実行します。

注：

__DATABRICKS_NOTEBOOK_MODEL オブジェクトのノートブック本文はエンコードされます。

要求の構造

フィールド名	タイプ	説明
`run_id`	`INT64`	実行の正規識別子。このフィールドは必須です。
`views_to_export`	ビューToExport	エクスポートするビュー (CODE、DASHBOARDS、または ALL)。デフォルトは CODE です。

回答の構成

フィールド名	タイプ	説明
`views`	ViewItem の配列	HTML 形式でエクスポートされたコンテンツ (ビューアイテムごとに 1 つ)。

キャンセルを実行します

エンドポイント	HTTP メソッド
`2.0/jobs/runs/cancel`	`POST`

ジョブの実行をキャンセルします。実行は非同期的に取り消されるため、この要求が完了したときに実行がまだ実行されている可能性があります。この実行はまもなく終了します。実行がすでにターミナル life_cycle_stateにある場合、この方法は何もしません。

このエンドポイントは、 run_id パラメーターが有効であることを検証し、無効なパラメーターの場合は HTTP ステータスコード 400 を返します。

例

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel \
--data '{ "run_id": <run-id> }'

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<run-id> は、実行の ID ( 123など) に置き換えます。

この例では、 .netrc ファイル。

要求の構造

フィールド名	タイプ	説明
`run_id`	`INT64`	取り消す実行の正規識別子。このフィールドは必須です。

すべての実行タスクのキャンセル

エンドポイント	HTTP メソッド
`2.0/jobs/runs/cancel-all`	`POST`

ジョブのアクティブな実行をすべてキャンセルします。実行は非同期的に取り消されるため、新しい実行の開始が妨げられることはありません。

このエンドポイントは、 job_id パラメーターが有効であることを検証し、無効なパラメーターの場合は HTTP ステータスコード 400 を返します。

例

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel-all \
--data '{ "job_id": <job-id> }'

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<job-id> は、ジョブの ID ( 123など) に置き換えます。

この例では、 .netrc ファイル。

要求の構造

フィールド名	タイプ	説明
`job_id`	`INT64`	すべての実行をキャンセルするジョブの正規識別子。このフィールドは必須です。

タスク実行結果の取得

エンドポイント	HTTP メソッド
`2.0/jobs/runs/get-output`	`GET`

1 つのタスク実行の出力とメタデータを取得します。ノートブックタスクが dbutils.ノートブック.exit() を通じて値を返す場合 call を呼び出すと、このエンドポイントを使用してその値を取得できます。 Databricks では、この API が出力の最初の 5 MB を返すように制限されています。より大きな結果を返すために、ジョブの結果をクラウドストレージサービスに保存できます。

このエンドポイントは、 run_id パラメーターが有効であることを検証し、無効なパラメーターの場合は HTTP ステータスコード 400 を返します。

実行は 60 日後に自動的に削除されます。 60 日を超えて参照する場合は、有効期限が切れる前に古い実行結果を保存する必要があります。 UI を使用してエクスポートするには、「ジョブ実行結果のエクスポート」を参照してください。ジョブ API を使用してエクスポートするには、「エクスポートの実行」を参照してください。

例

依頼

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get-output?run_id=<run-id>' \
| jq .

又は：

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get-output \
--data run_id=<run-id> \
| jq .

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<run-id> は、実行の ID ( 123など) に置き換えます。

この例では、 .netrc file と jq.

応答

{
  "metadata": {
    "job_id": 1,
    "run_id": 452,
    "number_in_job": 5,
    "state": {
      "life_cycle_state": "TERMINATED",
      "result_state": "SUCCESS",
      "state_message": ""
    },
    "task": {
      "notebook_task": {
        "notebook_path": "/Users/someone@example.com/my-notebook"
      }
    },
    "cluster_spec": {
      "existing_cluster_id": "1201-my-cluster"
    },
    "cluster_instance": {
      "cluster_id": "1201-my-cluster",
      "spark_context_id": "1102398-spark-context-id"
    },
    "overriding_parameters": {
      "jar_params": ["param1", "param2"]
    },
    "start_time": 1457570074236,
    "setup_duration": 259754,
    "execution_duration": 3589020,
    "cleanup_duration": 31038,
    "run_duration": 3879812,
    "trigger": "PERIODIC"
  },
  "notebook_output": {
    "result": "the maybe truncated string passed to dbutils.notebook.exit()"
  }
}

要求の構造

フィールド名	タイプ	説明
`run_id`	`INT64`	実行の正規識別子。複数のタスクを持つジョブの場合、これはタスク実行の `run_id` です。「出力の取得を実行する」を参照してください。このフィールドは必須です。

回答の構成

フィールド名

タイプ

説明

notebook_output または error

ノートブック出力又は STRING

ノートブックの場合、ノートブックタスクの出力 (使用可能な場合)。 dbutils.notebook.exit()を呼び出さずに (成功または失敗して) 終了したノートブックタスクは、空の出力を持つと見なされます。このフィールドは設定されますが、結果の値は空になります。

エラーの場合、出力が使用できない理由を示すエラーメッセージ。メッセージは構造化されておらず、正確な形式は変更される可能性があります。

metadata

実行

出力を除く実行のすべての詳細。

実行の削除

エンドポイント	HTTP メソッド
`2.0/jobs/runs/delete`	`POST`

非アクティブな実行を削除します。実行がアクティブな場合はエラーを返します。

例

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/delete \
--data '{ "run_id": <run-id> }'

以下のように置き換えてください。

<databricks-instance> を Databricks ワークスペースインスタンス名 (例: dbc-a1b2345c-d6e7.cloud.databricks.com) に置き換えます。
<run-id> は、実行の ID ( 123など) に置き換えます。

この例では、 .netrc ファイル。

要求の構造

フィールド名	タイプ	説明
`run_id`	`INT64`	メタデータを取得する実行の正規識別子。

データ構造

このセクションの内容：

オートスケール
Awsアトリビュート
アトラベイラビリティ
クラスタインスタンス
クラスタログコンフィ
クラスタスペック
クラスタータグ
クロンスケジュール
dbfsストレージ情報
エブスボリュームタイプ
ファイルストレージ情報
InitScriptInfo (英語)
ジョブ
JobEmail通知
ジョブ通知設定
ジョブ設定
ジョブタスク
ジョブヘルスルール
ジョブヘルスルール
ライブラリ
Mavenライブラリ
新規クラスタ
ノートブック出力
ノートブックタスク
パラメータペア
パイプラインタスク
PythonPyPiライブラリ
RCranライブラリ
実行
RunJobTask (ジョブタスクの実行)
RunLifeCycleState
ランパラメータ
RunResultState (実行結果状態)
ランステート
S3ストレージ情報
スパークコンファレンスペア
スパークエンブペア
SparkJarタスク
SparkPythonタスク
SparkSubmitタスク
トリガータイプ
ビューアイテム
ビュータイプ
ビューToExport
Webhook
ウェブフック通知
ワークスペースストレージ情報

オートスケール

クラスターワーカーの最小数と最大数を定義する範囲。

フィールド名	タイプ	説明
`min_workers`	`INT32`	使用率が低い場合にクラスターをスケールダウンできるワーカーの最小数。これは、作成後にクラスターが持つワーカーの初期数でもあります。
`max_workers`	`INT32`	過負荷時にクラスターをスケールアップできるワーカーの最大数。 max_workers厳密に min_workers より大きくなければなりません。

Awsアトリビュート

クラスターの作成時に設定された、 Amazon Web サービスに関連する属性。

フィールド名	タイプ	説明
`first_on_demand`	`INT32`	クラスターの最初の first_on_demand ノードは、オンデマンドインスタンスに配置されます。この値が 0 より大きい場合、クラスタードライバーノードはオンデマンドインスタンスに配置されます。この値が現在のクラスターサイズ以上の場合、すべてのノードがオンデマンドインスタンスに配置されます。この値が現在のクラスターサイズより小さい場合、first_on_demandノードはオンデマンドインスタンスに配置され、残りは `availability` インスタンスに配置されます。この値はクラスターのサイズに影響せず、クラスターの存続期間中は変更できません。
`availability`	アトラベイラビリティ	first_on_demandノードより後のすべての後続のノードに使用される可用性の種類。手記： first_on_demand が 0 の場合、この可用性の種類はクラスター全体に使用されます。
`zone_id`	`STRING`	クラスターが存在するアベイラビリティーゾーン (AZ) の識別子。デフォルトでは、設定の値は auto (Auto-AZ) です。自動 AZ では、Databricks はワークスペースサブネット内の使用可能な IP に基づいて AZ を選択し、AWS が容量不足エラーを返した場合に他のアベイラビリティーゾーンで再試行します。必要に応じて、使用するアベイラビリティーゾーンを指定することもできます。これは、特定の AZ にリザーブドインスタンスを持つアカウントに役立ちます。 AZ を文字列として指定します (例: `"us-west-2a"`)。提供される可用性ゾーンは、Databricks デプロイと同じリージョンに存在する必要があります。たとえば、Databricks デプロイが "us-east-1" リージョンに存在する場合、"us-west-2a" は有効なゾーン ID ではありません。使用可能なゾーンのリストとデフォルト値は、GET /api/2.0/クラスター/list-zones を使用して見つけることができます呼び出し。
`instance_profile_arn`	`STRING`	このクラスターのノードは、このインスタンスプロファイルの AWS インスタンスにのみ配置されます。省略すると、ノードはインスタンスプロファイルのないインスタンスに配置されます。インスタンスプロファイルは、アカウント管理者によって以前に Databricks 環境に追加されている必要があります。この機能は、特定の顧客プランでのみ利用できる場合があります。
`spot_bid_price_percent`	`INT32`	AWS スポットインスタンスの最大価格 (対応するインスタンスタイプのオンデマンド料金に対する割合)。たとえば、このフィールドが 50 に設定され、クラスターに新しい `i3.xlarge` スポットインスタンスが必要な場合、最大価格はオンデマンド `i3.xlarge` インスタンスの価格の半分になります。同様に、このフィールドを 200 に設定すると、最大価格はオンデマンド `i3.xlarge` インスタンスの 2 倍になります。指定しない場合、デフォルト値は 100 です。このクラスターのスポットインスタンスがリクエストされると、最大価格パーセンテージがこのフィールドと一致するスポットインスタンスのみが考慮されます。安全のため、このフィールドは 10000 以下に強制されます。
`ebs_volume_type`	エブスボリュームタイプ	このクラスターで起動される EBS ボリュームのタイプ。
`ebs_volume_count`	`INT32`	各インスタンスで起動されたボリュームの数。最大10巻まで選択できます。この機能は、サポートされているノードタイプでのみ有効です。レガシーノードタイプでは、カスタム EBS ボリュームを指定できません。インスタンスストアがないノードタイプの場合、少なくとも 1 つの EBS ボリュームを指定する必要があります。そうしないと、クラスターの作成が失敗します。これらの EBS ボリュームは、 `/ebs0`、 `/ebs1`などにマウントされます。インスタンスストアボリュームは、 `/local_disk0`、 `/local_disk1`などにマウントされます。 EBS ボリュームが接続されている場合、Databricks は、異種サイズのスクラッチデバイスがディスク使用率を低下させる可能性があるため、スクラッチストレージに EBS ボリュームのみを使用するように Spark を構成します。 EBS ボリュームが接続されていない場合、Databricks はインスタンスストアボリュームを使用するように Spark を構成します。 EBS ボリュームが指定されている場合、Spark 設定 `spark.local.dir` は上書きされます。
`ebs_volume_size`	`INT32`	各インスタンスで起動された各 EBS ボリュームのサイズ (GiB 単位)。汎用SSDボリュームの場合、この値は 100 から 4096 の範囲内にある必要があります。スループット最適化 HDD の場合、この値は 500 から 4096 の範囲内にある必要があります。カスタム EBS ボリュームは、レガシーノードタイプ (メモリ最適化およびコンピュート最適化) には指定できません。
`ebs_volume_iops`	`INT32`	EBS gp3 ボリュームあたりの IOPS 数。この値は 3000 から 16000 の間でなければなりません。 IOPS とスループットの値は、AWS のドキュメントに基づいて計算され、同じボリュームサイズの gp2 ボリュームの最大パフォーマンスと一致します。詳細については、 EBS ボリューム制限計算ツールを参照してください。
`ebs_volume_throughput`	`INT32`	EBS gp3 ボリュームあたりのスループット (MiB/秒)。この値は 125 から 1000 の間でなければなりません。

ebs_volume_iops も ebs_volume_throughput も指定されていない場合、値はディスク・サイズから推論されます。

ディスクサイズ	IOPSの	スループット
1000より大きい	ディスクサイズの 3 倍、最大 16000	250
170から1000の間	3000	250
170未満	3000	125

アトラベイラビリティ

クラスターのノードを設定するときにサポートされる AWS 可用性タイプのセット。

タイプ	説明
`SPOT`	スポットインスタンスを使用します。
`ON_DEMAND`	オンデマンドインスタンスを使用します。
`SPOT_WITH_FALLBACK`	スポットインスタンスを使用することをお勧めしますが、スポットインスタンスを取得できない場合 (AWS スポット料金が高すぎる場合など) はオンデマンドインスタンスにフォールバックします。

クラスタインスタンス

実行で使用されるクラスターと Spark コンテキストの識別子。これら 2 つの値を組み合わせることで、すべての時間の実行コンテキストが識別されます。

フィールド名

タイプ

説明

cluster_id

STRING

実行で使用されるクラスターの正規識別子。このフィールドは、既存のクラスターでの実行に常に使用できます。新しいクラスターでの実行の場合、クラスターが作成されると使用可能になります。この値は、 /#setting/sparkui/$cluster_id/driver-logsを参照してログを表示するために使用できます。ログは、実行が完了した後も引き続き使用できます。

識別子がまだ使用できない場合、応答にはこのフィールドは含まれません。

spark_context_id

STRING

実行で使用される Spark コンテキストの正規識別子。このフィールドは、実行が開始されると入力されます。この値は、 /#setting/sparkui/$cluster_id/$spark_context_idを参照して Spark UI を表示するために使用できます。 Spark UI は、実行が完了した後も引き続き使用できます。

識別子がまだ使用できない場合、応答にはこのフィールドは含まれません。

クラスタログコンフィ

クラスターログへのパス。

フィールド名

タイプ

説明

dbfs または s3

dbfsストレージ情報

S3ストレージ情報

クラスターログの場所DBFS。目的地を指定する必要があります。例えば { "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

クラスターログの場所S3。destination と region または warehouse のいずれかを提供する必要があります。例えば { "s3": { "destination" : "s3://cluster_log_bucket/prefix", "region" : "us-west-2" } }

クラスタスペック

重要

新しいジョブクラスターでジョブを実行すると、そのジョブは Jobs コンピュート (自動化) ワークロードとして扱われ、Jobs コンピュート価格が適用されます。
既存のAll-Purposeクラスターでジョブを実行すると、そのジョブはAll-Purpose コンピュート価格の対象となる All-Purpose コンピュート (インタラクティブ) ワークロードとして扱われます。

フィールド名

タイプ

説明

existing_cluster_id または new_cluster

STRING または新規クラスター

existing_cluster_idの場合、このジョブのすべての実行に使用される既存のクラスターの ID。既存のクラスターでジョブを実行している場合、クラスターが応答を停止した場合は、クラスターを手動で再起動する必要がある場合があります。信頼性を高めるために、新しいクラスターでジョブを実行することをお勧めします。

new_clusterの場合は、実行ごとに作成されるクラスターの説明。

PipelineTask を指定する場合、このフィールドは空にすることができます。

libraries

ライブラリの配列

ジョブを実行するクラスターにインストールするライブラリのオプションの一覧。デフォルト値は空のリストです。

クラスタータグ

クラスタータグの定義。

タイプ	説明
`STRING`	タグのキー。キーの長さは、1 から 127 文字の UTF-8 文字 (両端を含む) である必要があります。すべての制限のリストについては、「AWS タグの制限: https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Using_Tags.html#tag-restrictions を参照してください
`STRING`	タグの値。値の長さは 255 UTF-8 文字以下である必要があります。すべての制限のリストについては、「AWS タグの制限: https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/Using_Tags.html#tag-restrictions を参照してください

クロンスケジュール

フィールド名	タイプ	説明
`quartz_cron_expression`	`STRING`	ジョブのスケジュールを記述する Quartz 構文を使用した Cron 式。詳細については、Cron トリガーを参照してください。このフィールドは必須です。
`timezone_id`	`STRING`	Java タイムゾーン ID。ジョブのスケジュールは、このタイムゾーンを基準にして解決されます。詳細については、 Java TimeZone を参照してください。このフィールドは必須です。
`pause_status`	`STRING`	このスケジュールを一時停止するかどうかを示します。「停止する」または「UNPAUSED」のいずれかです。

dbfsストレージ情報

DBFS ストレージ情報。

フィールド名	タイプ	説明
`destination`	`STRING`	DBFS の宛先。例： `dbfs:/my/path`

エブスボリュームタイプ

Databricks は、gp2 および gp3 EBS ボリュームタイプをサポートしています。「SSD ストレージの管理」の手順に従って、ワークスペースに gp2 または gp3 を選択します。

タイプ	説明
`GENERAL_PURPOSE_SSD`	AWS EBS ボリュームを使用して追加のストレージをプロビジョニングします。
`THROUGHPUT_OPTIMIZED_HDD`	AWS st1 ボリュームを使用して追加のストレージをプロビジョニングします。

ファイルストレージ情報

ファイルストレージ情報。

注：

この位置情報は、 Databricks Container Services を使用して設定されたクラスターでのみ使用できます。

フィールド名	タイプ	説明
`destination`	`STRING`	ファイルの保存先。例： `file:/my/file.sh`

InitScriptInfo (英語)

initスクリプトへのパス。

Databricks Container Servicesでinitスクリプトを使用する方法については、initスクリプトの使用を参照してください。

注：

ファイルストレージの種類 (フィールド名: file) は、 Databricks Container Services を使用して設定されたクラスターでのみ使用できます。 FileStorageInfo を参照してください。

フィールド名

タイプ

説明

workspace OR dbfs (非推奨)

または S3

ワークスペースストレージ情報

DbfsStorageInfo (非推奨)

S3ストレージ情報

ワークスペース initスクリプトの場所。目的地を指定する必要があります。例えば { "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(非推奨)initスクリプトの場所 DBFS 。目的地を指定する必要があります。例えば { "dbfs" : { "destination" : "dbfs:/home/init_script" } }

initスクリプトの S3 の場所。配送先と、地域またはウェアハウスを指定する必要があります。例えば { "s3": { "destination" : "s3://init_script_bucket/prefix", "region" : "us-west-2" } }

ジョブ

フィールド名	タイプ	説明
`job_id`	`INT64`	このジョブの正規識別子。
`creator_user_name`	`STRING`	作成者のユーザー名。ユーザーが既に削除されている場合、このフィールドは応答に含まれません。
`run_as`	`STRING`	ジョブを実行するユーザー名。 `run_as` は現在のジョブ設定に基づいており、ジョブのアクセス制御が無効になっている場合はジョブの作成者に、ジョブのアクセス制御が有効になっている場合は `is_owner` 許可に設定されます。
`settings`	ジョブ設定	このジョブとそのすべての実行の設定。これらの設定は、 `resetJob` メソッドを使用して更新できます。
`created_time`	`INT64`	このジョブが作成された時刻 (エポックミリ秒) (1970 年 1 月 1 日からのミリ秒)。

JobEmail通知

重要

on_start、on_success、および on_failure フィールドは、ラテン文字 (ASCII 文字セット) のみを受け入れます。非ASCII文字を使用すると、エラーが返されます。無効な非 ASCII 文字の例としては、中国語、日本語の漢字、絵文字などがあります。

フィールド名	タイプ	説明
`on_start`	の配列 `STRING`	実行の開始時に通知されるEメールアドレスのリスト。ジョブの作成、リセット、または更新で指定しない場合、リストは空になり、通知は送信されません。
`on_success`	の配列 `STRING`	実行が正常に完了したときに通知される Eメールアドレスの一覧。実行が `TERMINATED` `life_cycle_state` と `SUCCESSFUL` `result_state`で終了した場合、実行は正常に完了したと見なされます。ジョブの作成、リセット、または更新で指定しない場合、リストは空になり、通知は送信されません。
`on_failure`	の配列 `STRING`	実行が正常に完了しなかったときに通知されるEメールアドレスのリスト。実行が `INTERNAL_ERROR` `life_cycle_state` または `SKIPPED`、 `FAILED`、または `TIMED_OUT` result_stateで終了した場合、実行は失敗に終わったと見なされます。ジョブの作成、リセット、または更新でこれが指定されていない場合、リストは空になり、通知は送信されません。
`on_duration_warning_threshold_exceeded`	の配列 `STRING`	実行時間が`health`フィールドの`RUN_DURATION_SECONDS`メトリクスに指定されたしきい値を超えたときに通知されるEメールアドレスのリスト。ジョブの`health`フィールドに`RUN_DURATION_SECONDS`メトリクスのルールが指定されていない場合、通知は送信されません。
`no_alert_for_skipped_runs`	`BOOL`	true の場合、実行がスキップされた場合、 `on_failure` で指定された受信者に Eメールを送信しません。

フィールド名	タイプ	説明
`on_start`	Webhook の配列	実行の開始時に通知されるシステム宛先のオプションのリスト。ジョブの作成、リセット、または更新で指定しない場合、リストは空になり、通知は送信されません。 `on_start`プロパティには、最大3つの目的地を指定できます。
`on_success`	Webhook の配列	実行が正常に完了したときに通知されるシステム宛先のオプションのリスト。実行が `TERMINATED` `life_cycle_state` と `SUCCESSFUL` `result_state`で終了した場合、実行は正常に完了したと見なされます。ジョブの作成、リセット、または更新で指定しない場合、リストは空になり、通知は送信されません。 `on_success`プロパティには、最大3つの目的地を指定できます。
`on_failure`	Webhook の配列	実行が正常に完了しなかったときに通知されるシステム宛先のオプションのリスト。実行が `INTERNAL_ERROR` `life_cycle_state` または `SKIPPED`、 `FAILED`、または `TIMED_OUT` result_stateで終了した場合、実行は失敗に終わったと見なされます。ジョブの作成、リセット、または更新でこれが指定されていない場合、リストは空になり、通知は送信されません。 `on_failure`プロパティには、最大3つの目的地を指定できます。
`on_duration_warning_threshold_exceeded`	Webhook の配列	実行の期間が `health` フィールドの `RUN_DURATION_SECONDS` メトリクスに指定されたしきい値を超えたときに通知されるシステム宛先のオプションのリスト。`on_duration_warning_threshold_exceeded`プロパティには、最大3つの目的地を指定できます。

ジョブ通知設定

フィールド名	タイプ	説明
`no_alert_for_skipped_runs`	`BOOL`	true の場合、実行がスキップされた場合は、 `on_failure` で指定された受信者に通知を送信しません。
`no_alert_for_canceled_runs`	`BOOL`	true の場合、実行が取り消された場合、 `on_failure` で指定された受信者に通知を送信しません。
`alert_on_last_attempt`	`BOOL`	true の場合、再試行された実行の `on_start` で指定された受信者に通知を送信せず、 `on_failure` で指定された受信者には、実行の最後の再試行まで通知を送信しません。

ジョブ設定

重要

新しいジョブクラスターでジョブを実行すると、そのジョブは Jobs コンピュート (自動化) ワークロードとして扱われ、Jobs コンピュート価格が適用されます。
既存のAll-Purposeクラスターでジョブを実行すると、そのジョブはAll-Purpose コンピュート価格の対象となる All-Purpose コンピュート (インタラクティブ) ワークロードとして扱われます。

ジョブの設定。これらの設定は、 resetJob メソッドを使用して更新できます。

フィールド名	タイプ	説明
`existing_cluster_id` または `new_cluster`	`STRING` または新規クラスター	existing_cluster_idの場合、このジョブのすべての実行に使用される既存のクラスターの ID。既存のクラスターでジョブを実行している場合、クラスターが応答を停止した場合は、クラスターを手動で再起動する必要がある場合があります。信頼性を高めるために、新しいクラスターでジョブを実行することをお勧めします。 new_clusterの場合は、実行ごとに作成されるクラスターの説明。 PipelineTask を指定する場合、このフィールドは空にすることができます。
`notebook_task` または `spark_jar_task` 、 `spark_python_task` 、 `spark_submit_task` 、または `pipeline_task` または `run_job_task`	ノートブックタスク OR SparkJarTask OR SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask	ノートブックの場合、このジョブがノートブックを実行する必要があることを示します。このフィールドを spark_jar_task と組み合わせて指定することはできません。 spark_jar_taskの場合、このジョブで JAR を実行する必要があることを示します。 spark_python_taskの場合、このジョブで Python ファイルを実行することを示します。 spark_submit_taskの場合、このジョブを spark submit スクリプトで起動する必要があることを示します。 If パイプラインは、このジョブが Delta Live Tables パイプラインを実行する必要があることを示します。実行されている場合、このジョブは別のジョブを実行する必要があることを示します。
`name`	`STRING`	ジョブのオプションの名前。デフォルト値は `Untitled`です。
`libraries`	ライブラリの配列	ジョブを実行するクラスターにインストールするライブラリのオプションの一覧。デフォルト値は空のリストです。
`email_notifications`	JobEmail通知	このジョブの実行が開始または完了したとき、およびこのジョブが削除されたときに通知されるEメールアドレスのオプションセット。デフォルトの動作は、電子メールを送信しないことです。
`webhook_notifications`	ウェブフック通知	このジョブの実行が開始、完了、または失敗したときに通知するシステム宛先のオプション・セット。
`notification_settings`	ジョブ通知設定	このジョブの各 `email_notifications` と `webhook_notifications` に通知を送信するときに使用するオプションの通知設定。
`timeout_seconds`	`INT32`	このジョブの各実行に適用されるオプションのタイムアウト。デフォルトの動作では、タイムアウトはありません。
`max_retries`	`INT32`	失敗した実行を再試行するオプションの最大回数。実行が `FAILED` result_state または `INTERNAL_ERROR` `life_cycle_state`で完了すると、実行は失敗と見なされます。値 -1 は無期限に再試行することを意味し、値 0 は再試行しないことを意味します。デフォルトの動作では、再試行は行われません。
`min_retry_interval_millis`	`INT32`	試行間の最小間隔 (ミリ秒単位) (オプション)。デフォルトの動作では、失敗した実行はすぐに再試行されます。
`retry_on_timeout`	`BOOL`	ジョブがタイムアウトしたときにジョブを再試行するかどうかを指定するオプションのポリシー。デフォルトの動作では、タイムアウト時に再試行されません。
`schedule`	クロンスケジュール	このジョブのオプションの定期的なスケジュール。デフォルトの動作は、ジョブUIで[実行]をクリックするか、`runNow`に API リクエストを送信してトリガーされた場合にのみジョブが実行されることです。
`max_concurrent_runs`	`INT32`	ジョブの並列実行の最大許容数 (オプション)。同じジョブの複数の実行を同時に実行できるようにする場合は、この値を設定します。これは、たとえば、頻繁なスケジュールでジョブをトリガーし、連続した実行を互いにオーバーラップさせたい場合や、入力パラメーターが異なる複数の実行をトリガーする場合に便利です。この設定は、新しい実行にのみ影響します。たとえば、ジョブの同時実行が 4 で、4 つの並列アクティブ実行があるとします。その後、コンカレンシーを 3 に設定しても、アクティブな実行は強制終了されません。ただし、それ以降は、アクティブな実行が 3 つ未満でない限り、新しい実行はスキップされます。この値は 1000 を超えることはできません。この値を 0 に設定すると、すべての新しい実行がスキップされます。デフォルトの動作では、1 つの並列実行のみが許可されます。
`health`	ジョブヘルスルール	ジョブに定義された正常性ルールのオプションセット。

ジョブタスク

フィールド名

タイプ

説明

notebook_task または spark_jar_task 、 spark_python_task 、 spark_submit_task 、または pipeline_task または run_job_task

ノートブックタスク OR SparkJarTask OR SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask

ノートブックの場合、このジョブがノートブックを実行する必要があることを示します。このフィールドを spark_jar_task と組み合わせて指定することはできません。

spark_jar_taskの場合、このジョブで JAR を実行する必要があることを示します。

spark_python_taskの場合、このジョブで Python ファイルを実行することを示します。

spark_submit_taskの場合、このジョブを spark submit スクリプトで起動する必要があることを示します。

If パイプラインは、このジョブが Delta Live Tables パイプラインを実行する必要があることを示します。

実行されている場合、このジョブは別のジョブを実行する必要があることを示します。

ジョブヘルスルール

フィールド名	タイプ	説明
`metric`	`STRING`	特定の正常性ルールに対して評価される正常性メトリクスを指定します。有効な値は `RUN_DURATION_SECONDS`です。
`operator`	`STRING`	ヘルスメトリクス値を指定したしきい値と比較するために使用する演算子を指定します。有効な値は `GREATER_THAN`です。
`value`	`INT32`	正常性ルールに準拠するために正常性メトリクスが満たす必要があるしきい値を指定します。

ジョブヘルスルール

フィールド名	タイプ	説明
`rules`	JobsHealthRule の配列	ジョブに対して定義できる正常性ルールのオプションセット。

ライブラリ

フィールド名

タイプ

説明

jar または egg 、 whl 、 pypi 、または maven または cran

STRING OR OR STRING OR STRING OR PythonPyPiLibrary OR MavenLibrary OR RCranLibrary

jar の場合は、インストールする JAR の URI。 DBFS URI と S3 URI がサポートされています。たとえば、 { "jar": "dbfs:/mnt/databricks/library.jar" } や { "jar": "s3://my-bucket/library.jar" }などです。 S3 を使用する場合は、クラスターにライブラリに対する読み取りアクセス権があることを確認します。 S3 URI にアクセスするために、インスタンスプロファイルを使用してクラスターを起動する必要がある場合があります。

egg の場合、インストールする egg の URI。 DBFS URI と S3 URI がサポートされています。たとえば、 { "egg": "dbfs:/my/egg" } や { "egg": "s3://my-bucket/egg" }などです。 S3 を使用する場合は、クラスターにライブラリに対する読み取りアクセス権があることを確認します。 S3 URI にアクセスするために、インスタンスプロファイルを使用してクラスターを起動する必要がある場合があります。

whlの場合、インストールする wheel またはzip形式の wheels のURI。 DBFS URI と S3 URI がサポートされています。たとえば、 { "whl": "dbfs:/my/whl" } や { "whl": "s3://my-bucket/whl" }などです。 S3 を使用する場合は、クラスターにライブラリに対する読み取りアクセス権があることを確認します。 S3 URI にアクセスするために、インスタンスプロファイルを使用してクラスターを起動する必要がある場合があります。また、 wheel ファイル名には正しい規則を使用する必要があります。 zip 形式の wheels をインストールする場合は、ファイル名の接尾辞を .wheelhouse.zipにする必要があります。

pypi の場合、インストールする PyPI ライブラリの指定。 repo フィールドの指定はオプションであり、指定しない場合はデフォルトの pip インデックスが使用されます。例えば： { "package": "simplejson", "repo": "https://my-repo.com" }

Maven場合は、インストールするMavenライブラリの指定。例えば： { "coordinates": "org.jsoup:jsoup:1.7.2" }

cranの場合は、インストールする CRAN ライブラリの指定。

Mavenライブラリ

フィールド名

タイプ

説明

coordinates

STRING

Gradle スタイルの Maven 座標。たとえば、 org.jsoup:jsoup:1.7.2のようになります。このフィールドは必須です。

repo

STRING

MavenパッケージをインストールするためのMaven リポジトリ。省略すると、Maven 中央リポジトリと Spark パッケージの両方が検索されます。

exclusions

の配列 STRING

除外する依存関係のリスト。たとえば、 ["slf4j:slf4j", "*:hadoop-client"]のようになります。

Maven 依存関係の除外: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

新規クラスタ

フィールド名	タイプ	説明
`num_workers` または `autoscale`	`INT32` OR オートスケール	ワーカーの場合、このクラスターに必要なワーカーノードの数。クラスターには 1 つの Spark ドライバーとワーカーエグゼキューターがあり、合計でワーカー + 1 つの Spark ノードがあります。クラスターのプロパティを読み取る場合、このフィールドには、実際の現在のワーカー数ではなく、必要なワーカー数が反映されます。たとえば、クラスターのサイズが 5 ワーカーから 10 ワーカーに変更された場合、このフィールドはすぐに 10 ワーカーの目標サイズを反映するように更新されますが、 `spark_info` にリストされているワーカーは、新しいノードがプロビジョニングされるにつれて 5 から 10 に徐々に増加します。オートスケールの場合、負荷に基づいてクラスターを自動的にスケールアップおよびスケールダウンするために必要なパラメーター。
`spark_version`	`STRING`	クラスターの Spark バージョン。使用可能な Spark バージョンの一覧は、 GET 2.0/クラスター/spark-versions 呼び出しを使用して取得できます。このフィールドは必須です。
`spark_conf`	スパークコンファレンスペア	オプションのユーザー指定の Spark 構成のキーと値のペアのセットを含むオブジェクト。また、追加の JVM オプションの文字列を、それぞれ `spark.driver.extraJavaOptions` Driver と `spark.executor.extraJavaOptions` を介してドライバーとエグゼキューターに渡すこともできます。 Spark confs の例: `{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5}` または `{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}`
`aws_attributes`	Awsアトリビュート	Amazon Web サービスで実行されているクラスターに関連する属性。クラスターの作成時に指定しない場合は、一連のデフォルト値が使用されます。
`node_type_id`	`STRING`	このフィールドは、このクラスター内の各 Spark ノードで使用可能なリソースを 1 つの値でエンコードします。たとえば、 Spark ノードをプロビジョニングし、メモリまたはコンピュート集中型のワークロード用に最適化できます使用可能なノードの種類の一覧は、 GET 2.0/クラスター/list-node-types 呼び出しを使用して取得できます。このフィールド、 `instance_pool_id` フィールド、またはノード・タイプ ID またはインスタンス・プール ID を指定するクラスター・ポリシーは必須です。
`driver_node_type_id`	`STRING`	Spark ドライバーのノードの種類。このフィールドはオプションです。設定を解除すると、ドライバーノードタイプは、上記で定義した `node_type_id` と同じ値に設定されます。
`ssh_public_keys`	の配列 `STRING`	このクラスター内の各 Spark ノードに追加される SSH 公開キーの内容。対応する秘密鍵を使用して、ポート `2200`でユーザー名`ubuntu`でログインできます。キーは 10 個まで指定できます。
`custom_tags`	クラスタータグ	クラスターリソースのタグのセットを含むオブジェクト。 Databricks すべてのクラスターリソース ( AWS インスタンスや EBS ボリュームなど) に、デフォルトに加えてこれらのタグを付けます。メモ: タグは、コンピュート最適化やメモリ最適化などのレガシーノードタイプではサポートされていません Databricks では、最大 45 個のカスタムタグを使用できます
`cluster_log_conf`	クラスタログコンフィ	Spark ログを長期保存先に配信するための構成。 1 つのクラスターに対して指定できる宛先は 1 つだけです。 conf が指定されている場合、ログは `5 mins`ごとに宛先に配信されます。ドライバーログの保存先は `<destination>/<cluster-id>/driver`で、エグゼキューターログの保存先は `<destination>/<cluster-id>/executor`です。
`init_scripts`	InitScriptInfo の配列	initスクリプトを格納するための設定です。スクリプトはいくつでも指定できます。スクリプトは、指定された順序で順番に実行されます。 `cluster_log_conf`を指定すると、initスクリプトのログが`<destination>/<cluster-id>/init_scripts`に送信されます。
`spark_env_vars`	スパークエンブペア	オプションのユーザー指定の環境変数のキーと値のペアのセットを含むオブジェクト。フォーム (X,Y) のキーと値のペアは、ドライバーとワーカーの起動時にそのままエクスポートされます (つまり、 `export X='Y'`)。追加の `SPARK_DAEMON_JAVA_OPTS`のセットを指定するには、次の例に示すように、それらを `$SPARK_DAEMON_JAVA_OPTS` に追加することをお勧めします。これにより、すべてのデフォルト Databricks マネージド環境変数も含まれるようになります。 Spark 環境変数の例: `{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"}` または `{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}`
`enable_elastic_disk`	`BOOL`	オートスケール Local Storage: 有効にすると、このクラスターは、 Spark ワーカーのディスク領域が不足しているときに、追加のディスク領域を動的に取得します。この機能が正しく機能するには、特定の AWS 権限が必要です - 詳細については、オートスケールのローカルストレージを有効にするを参照してください。
`driver_instance_pool_id`	`STRING`	ドライバ・ノードに使用するインスタンス・プールのオプションのID。また、 `instance_pool_id`. 詳細については、インスタンスプールの API を参照してください。
`instance_pool_id`	`STRING`	クラスターノードに使用するインスタンスプールのオプションの ID。 `driver_instance_pool_id` が存在する場合、`instance_pool_id` はワーカーノードにのみ使用されます。それ以外の場合は、ドライバーノードとワーカーノードの両方に使用されます。詳細については、インスタンスプールの API を参照してください。

ノートブック出力

フィールド名	タイプ	説明
`result`	`STRING`	dbutils.ノートブック.exit() に渡される値。Databricks では、この API が値の最初の 1 MB を返すように制限されています。より大きな結果を得るには、ジョブで結果をクラウドストレージサービスに保存できます。 `dbutils.notebook.exit()` が呼び出されなかった場合、このフィールドは存在しません。
`truncated`	`BOOLEAN`	結果が切り捨てられたかどうか。

ノートブックタスク

すべての出力セルのサイズは 8MB です。セルの出力のサイズが大きい場合、残りの実行はキャンセルされ、実行は失敗としてマークされます。その場合、他のセルから出力されたコンテンツの一部も欠落している可能性があります。

制限を超えているセルを見つけるのに助けが必要な場合は、All-Purposeクラスターに対してノートブックを実行し、このノートブック自動保存手法を使用してください。

フィールド名

タイプ

説明

notebook_path

STRING

Databricks ワークスペースで実行されるノートブックの絶対パス。このパスはスラッシュで始める必要があります。このフィールドは必須です。

revision_timestamp

LONG

ノートブックのリビジョンのタイムスタンプ。

base_parameters

ParamPair のマップ

このジョブの各実行に使用する基本パラメーター。パラメーターを指定して run-now を呼び出すことによって実行が開始された場合、2 つのパラメーターマップはマージされます。 base_parameters と run-nowで同じキーが指定されている場合は、run-now からの値が使用されます。

使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。

ノートブックが、ジョブの base_parameters または run-now override パラメーターで指定されていないパラメーターを受け取る場合は、ノートブックのデフォルト値が使用されます。

これらのパラメータをノートブックで取得するには、 dbutils.widgets.get を使用します。

パラメータペア

ジョブ running ノートブックタスクの名前ベースのパラメーター。

重要

このデータ構造のフィールドは、ラテン文字 (ASCII 文字セット) のみを受け入れます。非ASCII文字を使用すると、エラーが返されます。無効な非 ASCII 文字の例としては、中国語、日本語の漢字、絵文字などがあります。

タイプ	説明
`STRING`	パラメーター名。 dbutils.widgets.get に渡して値を取得します。
`STRING`	パラメーター value.

パイプラインタスク

フィールド名	タイプ	説明
`pipeline_id`	`STRING`	実行する Delta Live Tables パイプラインタスクの完全な名前。

PythonPyPiライブラリ

フィールド名	タイプ	説明
`package`	`STRING`	インストールする PyPI パッケージの名前。オプションの正確なバージョン指定もサポートされています。例: `simplejson` と `simplejson==3.8.0`. このフィールドは必須です。
`repo`	`STRING`	パッケージが見つかるリポジトリ。指定しない場合、デフォルトのpipインデックスが使用されます。

RCranライブラリ

フィールド名	タイプ	説明
`package`	`STRING`	インストールする CRAN パッケージの名前。このフィールドは必須です。
`repo`	`STRING`	パッケージが見つかるリポジトリ。指定しない場合は、既定の CRAN リポジトリが使用されます。

実行

実行に関するすべての情報(出力を除く)。出力は、 getRunOutput メソッドを使用して個別に取得できます。

フィールド名	タイプ	説明
`job_id`	`INT64`	この実行を含むジョブの正規識別子。
`run_id`	`INT64`	実行の正規識別子。この ID は、すべてのジョブのすべての実行で一意です。
`creator_user_name`	`STRING`	作成者のユーザー名。ユーザーが既に削除されている場合、このフィールドは応答に含まれません。
`number_in_job`	`INT64`	ジョブのすべての実行のうち、この実行のシーケンス番号。この値は 1 から始まります。
`original_attempt_run_id`	`INT64`	この実行が以前の実行試行の再試行である場合、このフィールドには元の試行の実行が含まれます。それ以外の場合は、実行と同じです。
`state`	ランステート	実行の結果とライフサイクルの状態。
`schedule`	クロンスケジュール	この実行をトリガーした cron スケジュール (定期的なスケジューラによってトリガーされた場合)。
`task`	ジョブタスク	実行によって実行されたタスク (存在する場合)。
`cluster_spec`	クラスタスペック	この実行が作成されたときのジョブのクラスター仕様のスナップショット。
`cluster_instance`	クラスタインスタンス	この実行に使用されたクラスター。新しいクラスターを使用するように実行が指定されている場合、このフィールドは、ジョブサービスが実行のクラスターを要求したときに設定されます。
`overriding_parameters`	ランパラメータ	この実行に使用されるパラメーター。
`start_time`	`INT64`	この実行が開始された時刻 (エポックミリ秒) (1970 年 1 月 1 日からのミリ秒)。これは、ジョブタスクの実行が開始される時刻ではない場合があります (たとえば、ジョブが新しいクラスターで実行されるようにスケジュールされている場合、クラスター作成呼び出しが発行される時刻です)。
`setup_duration`	`INT64`	クラスターのセットアップにかかった時間 (ミリ秒単位)。新しいクラスターでの実行の場合、これはクラスターの作成時間であり、既存のクラスターでの実行の場合、この時間は非常に短くする必要があります。
`execution_duration`	`INT64`	JARまたはノートブック内のコマンドの実行にかかった時間(ミリ秒単位)で、コマンドが完了、失敗、タイムアウト、キャンセル、または予期しないエラーが発生するまでです。
`cleanup_duration`	`INT64`	クラスターを終了し、関連するアーティファクトをクリーンアップするのにかかった時間 (ミリ秒単位)。実行の合計時間は、setup_duration、execution_duration、およびcleanup_durationの合計です。
`end_time`	`INT64`	この実行が終了した時刻 (エポックミリ秒) (1970 年 1 月 1 日からのミリ秒)。ジョブがまだ実行中の場合、このフィールドは 0 に設定されます。
`trigger`	トリガータイプ	この実行を起動したトリガーの種類。
`run_name`	`STRING`	実行のオプションの名前。デフォルト値は `Untitled`です。許可される最大長は、UTF-8 エンコードで 4096 バイトです。
`run_page_url`	`STRING`	実行の詳細ページへの URL。
`run_type`	`STRING`	実行のタイプ。 `JOB_RUN` - 通常のジョブ実行。実行 now で作成実行。 `WORKFLOW_RUN` - ワークフローの実行。 dbutils.ノートブック.実行で作成された実行。 `SUBMIT_RUN` - 実行を送信します。実行 now で作成実行。
`attempt_number`	`INT32`	トリガーされたジョブ実行に対するこの実行試行のシーケンス番号。実行の最初の試行のattempt_numberは 0 です。最初の実行試行が失敗し、ジョブに再試行ポリシー (`max_retries` > 0) がある場合、後続の実行は、元の試行の ID の `original_attempt_run_id` と増分 ID を使用して作成されます `attempt_number`。実行は成功するまで再試行され、最大 `attempt_number` はジョブの `max_retries` 値と同じです。

RunJobTask (ジョブタスクの実行)

フィールド名	タイプ	説明
`job_id`	`INT32`	実行するジョブの一意の識別子。このフィールドは必須です。

RunLifeCycleState

実行のライフサイクル状態。許可される状態遷移は次のとおりです。

QUEUED -> PENDING
PENDING -> RUNNING -> TERMINATING -> TERMINATED
PENDING -> SKIPPED
PENDING -> INTERNAL_ERROR
RUNNING -> INTERNAL_ERROR
TERMINATING -> INTERNAL_ERROR

状態	説明
`QUEUED`	実行はトリガーされましたが、次のいずれかの制限に達したため、キューに入れられます。ワークスペース内の最大並列アクティブ実行。ワークスペースで実行されるタスクの最大数並列 `Run Job` 。ジョブの最大並列実行。ジョブまたは実行でキューイングが有効になっていると、この状態に達することはできません。
`PENDING`	実行がトリガされました。ジョブの設定された最大並列実行に既に達している場合、実行はリソースを準備しずにすぐに `SKIPPED` 状態に移行します。それ以外の場合、クラスターの準備と実行は進行中です。
`RUNNING`	この実行のタスクは実行されています。
`TERMINATING`	この実行のタスクは完了し、クラスターと実行コンテキストはクリーンアップされています。
`TERMINATED`	この実行のタスクが完了し、クラスターと実行コンテキストがクリーンアップされました。この状態はターミナルです。
`SKIPPED`	この実行は、同じジョブの以前の実行が既にアクティブであったため、中止されました。この状態はターミナルです。
`INTERNAL_ERROR`	ジョブサービスの障害を示す例外的な状態 (長期間にわたるネットワーク障害など)。新しいクラスターでの実行が `INTERNAL_ERROR` 状態で終了した場合、ジョブサービスはできるだけ早くクラスターを終了します。この状態はターミナルです。

ランパラメータ

この実行のパラメーター。 jar_params、 python_params、またはノートブックのいずれか 1 つだけを run-now 要求に指定する必要があります (ジョブタスクの種類によって異なります)。 Spark JAR タスクまたは Python タスクを持つジョブは位置ベースのパラメーターの一覧を受け取り、ノートブックタスクを持つジョブはキー値マップを受け取ります。

フィールド名	タイプ	説明
`jar_params`	の配列 `STRING`	Spark JAR タスクを含むジョブのパラメーターの一覧 (例: `"jar_params": ["john doe", "35"]`。パラメーターは、Spark JAR タスクで指定されたメインクラスの main 関数を呼び出すために使用されます。 `run-now`で指定しない場合、デフォルトで空のリストになります。jar_paramsノートブックと併用することはできません。このフィールドの JSON 表現 (つまり、 `{"jar_params":["john doe","35"]}`) は 10,000 バイトを超えることはできません。使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。
`notebook_params`	ParamPair のマップ	ノートブックタスクを含むジョブのキーから値へのマップ。 `"notebook_params": {"name": "john doe", "age": "35"}`。マップはノートブックに渡され、 dbutils.widgets.get 関数を使用してアクセスできます。 `run-now`で指定しない場合、トリガーされた実行はジョブの基本パラメーターを使用します。ノートブックはjar_paramsと併用して指定することはできません。使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。このフィールドの JSON 表現 (つまり、 `{"notebook_params":{"name":"john doe","age":"35"}}`) は 10,000 バイトを超えることはできません。
`python_params`	の配列 `STRING`	Pythonタスクを持つジョブのパラメーターのリスト。`"python_params": ["john doe", "35"]`。このパラメーターは Python コマンドライン・パラメーターとしてファイルに渡されます。 `run-now`時に指定した場合、ジョブ設定で指定したパラメーターが上書きされます。このフィールドの JSON 表現 (つまり、 `{"python_params":["john doe","35"]}`) は 10,000 バイトを超えることはできません。使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。これらのパラメーターは、ラテン文字 (ASCII 文字セット) のみを受け入れます。非ASCII文字を使用すると、エラーが返されます。無効な非 ASCII 文字の例としては、中国語、日本語の漢字、絵文字などがあります。
`spark_submit_params`	の配列 `STRING`	spark submit タスクを含むジョブのパラメーターのリスト (例: `"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]`。パラメーターは、コマンドラインパラメーターとしてspark-submitスクリプトに渡されます。 `run-now`時に指定した場合、ジョブ設定で指定したパラメーターが上書きされます。このフィールドの JSON 表現 (つまり、 `{"python_params":["john doe","35"]}`) は 10,000 バイトを超えることはできません。使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。これらのパラメーターは、ラテン文字 (ASCII 文字セット) のみを受け入れます。非ASCII文字を使用すると、エラーが返されます。無効な非 ASCII 文字の例としては、中国語、日本語の漢字、絵文字などがあります。

RunResultState (実行結果状態)

実行の結果の状態。

life_cycle_state = TERMINATEDの場合:実行にタスクがある場合、結果は利用可能であることが保証され、タスクの結果を示します。
life_cycle_state = PENDING、 RUNNING、または SKIPPEDの場合、結果の状態は使用できません。
life_cycle_state = TERMINATING または lifecyclestate = INTERNAL_ERRORの場合 : 実行にタスクがあり、それを開始できた場合、結果の状態は使用可能です。

いったん使用可能になると、結果の状態は変更されません。

状態	説明
`SUCCESS`	タスクは正常に完了しました。
`FAILED`	タスクはエラーで完了しました。
`TIMEDOUT`	タイムアウトに達した後、実行が停止されました。
`CANCELED`	実行はユーザーの要求によりキャンセルされました。

ランステート

フィールド名	タイプ	説明
`life_cycle_state`	RunLifeCycleState	実行ライフサイクル内の実行の現在の場所の説明。このフィールドは、応答で常に使用できます。
`result_state`	RunResultState (実行結果状態)	実行の結果の状態。使用できない場合、応答にはこのフィールドは含まれません。 result_stateの可用性の詳細については、「 RunResultState 」を参照してください。
`user_cancelled_or_timedout`	`BOOLEAN`	実行がタイムアウトしたために、実行がユーザーによって手動で取り消されたか、スケジューラによって手動で取り消されたか。
`state_message`	`STRING`	現在の状態を説明するメッセージ。このフィールドは構造化されておらず、正確な形式は変更される可能性があります。

S3ストレージ情報

S3 ストレージ情報。

フィールド名	タイプ	説明
`destination`	`STRING`	S3 宛先。たとえば、 `s3://my-bucket/some-prefix` インスタンスプロファイルを使用してクラスターを設定する必要があり、インスタンスプロファイルには送信先への書き込みアクセス権が必要です。 AWS キーは使用できません。
`region`	`STRING`	S3 リージョン。たとえば、 `us-west-2`です。地域またはウェアハウスのいずれかを設定する必要があります。両方が設定されている場合は、ウェアハウスが使用されます。
`warehouse`	`STRING`	S3 ウェアハウス。たとえば、 `https://s3-us-west-2.amazonaws.com`です。地域またはウェアハウスのいずれかを設定する必要があります。両方が設定されている場合は、ウェアハウスが使用されます。
`enable_encryption`	`BOOL`	(オプション)サーバー側の暗号化を有効にします (デフォルトで `false` )。
`encryption_type`	`STRING`	(オプション)暗号化の種類は、 `sse-s3` または `sse-kms`です。これは、暗号化が有効になっていて、デフォルトのタイプが `sse-s3`の場合にのみ使用されます。
`kms_key`	`STRING`	(オプション)暗号化が有効で、暗号化タイプが `sse-kms`に設定されている場合に使用される KMS キー。
`canned_acl`	`STRING`	(オプション)既定のアクセス制御リストを設定します。たとえば、 `bucket-owner-full-control`です。 canned_aclが設定されている場合、クラスターインスタンスプロファイルには、送信先バケットとプレフィックスに対する `s3:PutObjectAcl` アクセス許可が必要です。可能な既定 ACL の完全な一覧については、 https://docs.aws.amazon.com/AmazonS3/latest/dev/acl-overview.html#canned-acl を参照してください。デフォルトで、オブジェクトの所有者だけがフルコントロールを取得します。データの書き込みにクロスアカウントロールを使用している場合は、バケット所有者がログを読み取れるように `bucket-owner-full-control` を設定することをお勧めします。

スパークコンファレンスペア

Spark 構成のキーと値のペア。

タイプ	説明
`STRING`	構成プロパティの名前。
`STRING`	構成プロパティの値。

スパークエンブペア

Spark 環境変数のキーと値のペア。

重要

ジョブ・クラスターで環境変数を指定する場合、このデータ構造のフィールドはラテン文字 (ASCII 文字セット) のみを受け入れます。非ASCII文字を使用すると、エラーが返されます。無効な非 ASCII 文字の例としては、中国語、日本語の漢字、絵文字などがあります。

タイプ	説明
`STRING`	環境変数の名前。
`STRING`	環境変数の値。

SparkJarタスク

フィールド名

タイプ

説明

jar_uri

STRING

2016 年 4 月以降非推奨。代わりに、libraries フィールドを使用してjarを指定します。例については、「作成」を参照してください。

main_class_name

STRING

実行するメインメソッドを含むクラスのフルネームです。このクラスはライブラリとして提供されるJARに含める必要があります。

コードでは、 SparkContext.getOrCreate を使用して Spark コンテキストを取得する必要があります。そうしないと、ジョブの実行が失敗します。

parameters

の配列 STRING

main メソッドに渡されるパラメーター。

使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。

SparkPythonタスク

フィールド名

タイプ

説明

python_file

STRING

実行する Python ファイルの URI です。 DBFS パスと S3 パスがサポートされています。このフィールドは必須です。

parameters

の配列 STRING

Python ファイルに渡されるコマンドラインパラメーター。

使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。

SparkSubmitタスク

重要

Spark 送信タスクは、新しいクラスターでのみ呼び出すことができます。
new_cluster仕様では、 libraries と spark_conf はサポートされていません。代わりに、 --jars と --py-files を使用して Java ライブラリと Python ライブラリを追加し、 --conf Spark 構成を設定します。
master、deploy-mode、およびexecutor-coresは、 Databricksによって自動的に構成されます。パラメーターで指定 することはできません 。
デフォルトにより、 Spark submit ジョブは使用可能なすべてのメモリを使用します ( Databricks サービス用に予約されたメモリを除く)。 --driver-memoryと --executor-memory を小さい値に設定して、オフヒープ使用の余地を残すことができます。
--jars、 --py-files、 --files 引数は、DBFS パスと S3 パスをサポートします。

たとえば、JAR が DBFS にアップロードされると仮定すると、次のパラメーターを設定して SparkPi を実行できます。

{
  "parameters": [
    "--class",
    "org.apache.spark.examples.SparkPi",
    "dbfs:/path/to/examples.jar",
    "10"
  ]
}

フィールド名

タイプ

説明

parameters

の配列 STRING

spark submit に渡されるコマンドラインパラメーター。

使用動的値参照とはをクリックして、ジョブの実行に関する情報を含むパラメーターを設定します。

トリガータイプ

これらは、実行を起動できるトリガーの種類です。

タイプ	説明
`PERIODIC`	定期的に実行をトリガーするスケジュール (cron スケジューラなど)。
`ONE_TIME`	1 回の実行を起動する 1 回限りのトリガー。これは、UI または API を介してオンデマンドで 1 回の実行をトリガーした場合に発生します。
`RETRY`	以前に失敗した実行の再試行としてトリガーされる実行を示します。これは、障害が発生した場合にジョブの再実行を要求したときに発生します。

ビューアイテム

エクスポートされたコンテンツは HTML 形式です。たとえば、エクスポートするビューがダッシュボードの場合、ダッシュボードごとに 1 つの HTML 文字列が返されます。

フィールド名	タイプ	説明
`content`	`STRING`	ビューの内容。
`name`	`STRING`	ビューアイテムの名前。コードビューの場合は、ノートブックの名前。ダッシュボードビューの場合は、ダッシュボードの名前。
`type`	ビュータイプ	ビューアイテムの種類。

ビュータイプ

タイプ	説明
`NOTEBOOK`	ノートブックビューのアイテム。
`DASHBOARD`	ダッシュボードビューアイテム。

ビューToExport

エクスポートするビュー: コード、すべてのダッシュボード、またはすべて。

タイプ	説明
`CODE`	ノートブックのコードビュー。
`DASHBOARDS`	ノートブックのすべてのダッシュボードビュー。
`ALL`	ノートブックのすべてのビュー。

Webhook

フィールド名	タイプ	説明
`id`	`STRING`	システム通知の送信先を参照する識別子。このフィールドは必須です。

ウェブフック通知

フィールド名	タイプ	説明
`on_start`	Webhook の配列	実行の開始時に通知されるシステム宛先のオプションのリスト。ジョブの作成、リセット、または更新で指定しない場合、リストは空になり、通知は送信されません。 `on_start`プロパティには、最大3つの目的地を指定できます。
`on_success`	Webhook の配列	実行が正常に完了したときに通知されるシステム宛先のオプションのリスト。実行が `TERMINATED` `life_cycle_state` と `SUCCESSFUL` `result_state`で終了した場合、実行は正常に完了したと見なされます。ジョブの作成、リセット、または更新で指定しない場合、リストは空になり、通知は送信されません。 `on_success`プロパティには、最大3つの目的地を指定できます。
`on_failure`	Webhook の配列	実行が正常に完了しなかったときに通知されるシステム宛先のオプションのリスト。実行が `INTERNAL_ERROR` `life_cycle_state` または `SKIPPED`、 `FAILED`、または `TIMED_OUT` `result_state`で終了した場合、実行は失敗に終わったと見なされます。ジョブの作成、リセット、または更新でこれが指定されていない場合、リストは空になり、通知は送信されません。 `on_failure`プロパティには、最大3つの目的地を指定できます。
`on_duration_warning_threshold_exceeded`	Webhook の配列	実行の期間が `health` フィールドの `RUN_DURATION_SECONDS` メトリクスに指定されたしきい値を超えたときに通知されるシステム宛先のオプションのリスト。`on_duration_warning_threshold_exceeded`プロパティには、最大3つの目的地を指定できます。

ワークスペースストレージ情報

ワークスペースのストレージ情報。

フィールド名	タイプ	説明
`destination`	`STRING`	ファイルの保存先。例： `/Users/someone@domain.com/init_script.sh`

ジョブ API 2.0

創造する

例

依頼

応答

要求の構造

回答の構成

リスト

例

依頼

応答

回答の構成

削除

例

要求の構造

取得

例

依頼

応答

要求の構造

回答の構成

リセット

例

要求の構造

アップデート

例

要求の構造

今すぐ実行

例

要求の構造

回答の構成

実行 submit

例

依頼

応答

要求の構造

回答の構成

実行 list

例

依頼

応答

要求の構造

回答の構成

実行 取得

例

依頼

応答

要求の構造

回答の構成

実行結果のエクスポート

例

依頼

応答

要求の構造

回答の構成

キャンセルを実行します

例

要求の構造

すべての実行タスクのキャンセル

例

要求の構造

タスク実行結果の取得

例

依頼

応答

要求の構造

回答の構成

実行の削除

例

要求の構造

データ構造

実行取得