Databricks Asset Bundles 拡張機能

Visual Studio Code 用の Databricks 拡張機能は、Visual Studio Code 内に追加機能を提供し、Databricks アセット バンドルを簡単に定義、デプロイ、実行して、CI/CD のベスト プラクティスを Databricks ジョブ、Delta Live Tables パイプライン、MLOps スタックに適用できるようにします。 「Databricks アセットバンドルとは」を参照してください。

Visual Studio Code 用の Databricks 拡張機能をインストールするには、「 Visual Studio Code 用の Databricks 拡張機能のインストール」を参照してください。

プロジェクトでの Databricks アセット バンドルのサポート

Visual Studio Code の Databricks 拡張機能は、Databricks Asset Bundles プロジェクトに次の機能を追加します。

  • Visual Studio Code UI を使用した Databricks アセットバンドルの簡単な認証と構成 ( AuthType プロファイルの選択を含む)。 「Visual Studio Code の Databricks 拡張機能の認証設定」を参照してください。

  • Databricks 拡張機能パネルの ターゲット セレクターで、バンドル ターゲット環境をすばやく切り替えることができます。 「ターゲット・デプロイメント・ワークスペースの変更」を参照してください。

  • 拡張パネルの Override Jobs クラスター in bundle オプションを使用して、簡単なクラスターのオーバーライドを有効にします。

  • Bundles リソース エクスプローラー ビューを使用すると、Visual Studio Code UI を使用してバンドル リソースを参照し、1 回のクリックでローカル Databricks アセット バンドルのリソースをリモート Databricks ワークスペースにデプロイし、Visual Studio Code からワークスペースにデプロイされたリソースに直接移動できます。バンドル・リソース・エクスプローラーを参照してください。

  • バンドル変数ビュー: Visual Studio Code UI を使用してバンドル変数を参照および編集できます。「バンドル変数ビュー」を参照してください。

バンドルリソースエクスプローラー

Visual Studio Code の 拡張機能の バンドル リソース エクスプローラー ビューでは、プロジェクトのバンドル構成のジョブ定義とパイプライン定義を使用して、パイプライン データセットとそのスキーマなどのリソースを表示します。Databricksまた、リソースのデプロイと実行、パイプラインの部分的な更新の検証と実行、パイプラインの実行イベントと診断の表示、リモート Databricks ワークスペース内のリソースへの移動もできます。 バンドル構成リソースに関する情報については、 リソースを参照してください。

たとえば、単純なジョブ定義があるとします。

resources:
  jobs:
    my-notebook-job:
      name: "My Notebook Job"
      tasks:
        - task_key: notebook-task
          existing_cluster_id: 1234-567890-abcde123
          notebook_task:
            notebook_path: notebooks/my-notebook.py

拡張機能の バンドル リソース エクスプローラー ビューには、ノートブック ジョブ リソースが表示されます。

バンドルリソースエクスプローラー

バンドルをデプロイするには、クラウド(バンドルのデプロイ)アイコンをクリックします。

バンドルのデプロイ

ジョブを実行するには、[ Bundle Resource Explorer] (バンドルリソースエクスプローラー )ビューで、ジョブの名前(この例では My ノートブック ジョブ )を選択します。 次に、プレイ (バンドルのデプロイとリソースの実行) アイコンをクリックします。

バンドルをデプロイしてリソースを実行する

実行中のジョブを表示するには、「 バンドル・リソース・エクスプローラー 」ビューで、ジョブ名を展開し、「 実行状況」をクリックしてから、リンク (外部リンクを開く) アイコンをクリックします。

外部にジョブリンクを開く

パイプラインの場合、検証と部分的な更新をトリガーするには、パイプラインを選択し、チェック (バンドルのデプロイとパイプラインの検証) アイコンを選択します。 実行のイベントが表示され、Visual Studio Code の [問題 ] パネル内でエラーを診断できます。

バンドルをデプロイし、パイプラインを検証する
パイプライン実行イベント

バンドル変数ビュー

Visual Studio Code の Databricks 拡張機能の [バンドル変数ビュー ] ビューには、バンドル構成で定義されているカスタム変数と関連設定が表示されます。 また、Bundles Variables View を使用して変数を直接定義することもできます。これらの値は、バンドル設定ファイルで設定された値を上書きします。 カスタム変数に関する情報については、「 カスタム変数」を参照してください。

たとえば、拡張機能の Bundle Variables View ビューには、次のように表示されます。

バンドル変数ビュー

このバンドル構成で定義されている変数 my_custom_var の場合:

variables:
  my_custom_var:
    description: "Max workers"
    default: "4"

resources:
  jobs:
    my_job:
      name: my_job

      tasks:
        - task_key: notebook_task
          job_cluster_key: job_cluster
          notebook_task:
            notebook_path: ../src/notebook.ipynb

      job_clusters:
        - job_cluster_key: job_cluster
          new_cluster:
            spark_version: 13.3.x-scala2.12
            node_type_id: i3.xlarge
            autoscale:
                min_workers: 1
                max_workers: ${var.my_custom_var}