Databricks CLIとは

注記

この情報は、パブリックプレビュー段階にあるDatabricks CLIバージョン0.205 以降に適用されます。ご使用のDatabricks CLIのバージョンは、databricks -vを実行することで確認できます。

Databricksコマンドラインインタフェース(Databricks CLIとも呼ばれます)は、ターミナル、コマンドプロンプト、または自動化スクリプトからDatabricksプラットフォームを自動実行するためのツールを提供します。Webターミナルを使用すれば、DatabricksワークスペースからDatabricks CLIコマンドを実行することもできます。詳しくは、「Databricks Webターミナルでシェルコマンドを実行する」を参照してください。

レガシーDatabricks CLIユーザーの皆様へ

  • Databricksでは、レガシーDatabricks CLIに対するサポートや新機能の追加は予定しておりません。

  • レガシーDatabricks CLIの詳細については、「Databricks CLI(レガシー)」を参照してください。

  • Databricks CLIバージョン0.18以前からDatabricks CLIバージョン0.205以降に移行する方法については、「Databricks CLIの移行」を参照してください。

Databricks CLIの仕組み

CLIはDatabricks REST APIをラップしており、Databricksアカウントやワークスペースオブジェクトに関する情報を変更したり要求したりするためのエンドポイントを提供しています。「Databricks REST APIリファレンス」を参照してください。

たとえば、ワークスペース内の個々のクラスターに関する情報を印刷するには、次のようにCLIを実行します。

databricks clusters get 1234-567890-a12bcde3

curlでの同等の操作は次のとおりです。

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

例:Databricksジョブの作成

次の例では、CLI 使用してDatabricksジョブを作成します。このジョブには、ジョブタスクが1つあります。このタスクでは、指定されたDatabricksノートブックを実行します。このノートブックは、wheelという名前のPyPIパッケージの特定のバージョンに依存しています。このタスクを実行するため、PYSPARK_PYTHON という名前の環境変数をエクスポートするジョブクラスターがこのジョブにより一時的に作成されます。ジョブの実行が終了すると、このクラスターも終了になります。

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "i3.xlarge",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

次のステップ