Databricks CLI とは何ですか?

この情報は、 パブリック プレビュー段階の Databricks CLI バージョン 0.205 以降に適用されます。 Databricks CLI のバージョンを見つけるには、 databricks -vを実行します。

Databricks コマンド ライン インターフェイス (Databricks CLI とも呼ばれます) は、ターミナル、コマンド プロンプト、または自動化スクリプトから Databricks プラットフォームを自動化するツールを提供します。

従来の Databricks CLI ユーザー向けの情報

  • Databricks は、従来の Databricks CLI のサポートや新機能の作業は予定していません。

  • レガシー Databricks CLI の詳細については、「 Databricks CLI (レガシー)」を参照してください。

  • Databricks CLI バージョン 0.18 以下から Databricks CLI バージョン 0.205 以降に移行するには、 Databricks CLI の移行 を参照してください。

Databricks CLI はどのように機能しますか?

CLI は、REST パースペクティブを使用して Databricks アカウントとワークスペースのリソースとデータを自動化するアプリケーション プログラミング インターフェイス (API) である Databricks REST API をラップします。 Databricks REST API リファレンスを参照してください。

たとえば、ワークスペース内の個々のクラスターに関する情報を印刷するには、次のように CLI を実行します。

databricks clusters get 1234-567890-a12bcde3

curlを使用すると、次のように、同等の操作は表現に時間がかかり、入力エラーが発生しやすくなります。

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

例: Databricksジョブの作成

次の例では、CLI を使用して Databricks ジョブを作成します。 このジョブには、1 つのジョブ タスクが含まれています。 このタスクは、指定された Databricks ノートブックを実行します。 このノートブックは、 wheelという名前の特定のバージョンの PyPI パッケージに依存しています。 このタスクを実行するために、ジョブは PYSPARK_PYTHONという名前の環境変数をエクスポートするジョブ クラスターを一時的に作成します。 ジョブの実行後、クラスターは終了します。

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "i3.xlarge",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

次のステップ