Databricks Asset Bundles 拡張機能
Visual Studio Code の Databricks 拡張機能は、Databricks アセット バンドルを簡単に定義、デプロイ、実行して、CI/CD のベスト プラクティスを Databricks ジョブ、DLT パイプライン、MLOps スタックに適用できる Visual Studio Code 内の追加機能を提供します。「Databricks アセットバンドルとは」を参照してください。
Visual Studio Code 用の Databricks 拡張機能をインストールするには、「 Visual Studio Code 用の Databricks 拡張機能のインストール」を参照してください。
プロジェクトでの Databricks アセット バンドルのサポート
Visual Studio Code の Databricks 拡張機能は、Databricks Asset Bundles プロジェクトに次の機能を追加します。
- Visual Studio Code UI を使用した Databricks アセットバンドルの簡単な認証と構成 ( AuthType プロファイルの選択を含む)。 「Visual Studio Code の Databricks 拡張機能の承認を設定する」を参照してください。
- Databricks 拡張機能パネルの ターゲット セレクターで、バンドル ターゲット環境をすばやく切り替えることができます。 「ターゲット・デプロイメント・ワークスペースの変更」を参照してください。
- 拡張機能パネルの [Override Jobs clustering] (バンドル内のクラスターをオーバーライド ) オプションを使用すると、クラスターを簡単に上書きできます。
- Bundles リソース エクスプローラー ビューを使用すると、Visual Studio Code UI を使用してバンドル リソースを参照し、1 回のクリックでローカル Databricks アセット バンドルのリソースをリモート Databricks ワークスペースにデプロイし、Visual Studio Code からワークスペースにデプロイされたリソースに直接移動できます。バンドル・リソース・エクスプローラーを参照してください。
- バンドル変数ビュー : Visual Studio Code UI を使用してバンドル変数を参照および編集できます。バンドル変数ビューを参照してください。
バンドルリソースエクスプローラー
Visual Studio Code の 拡張機能の バンドル リソース エクスプローラー ビューでは、プロジェクトのバンドル構成のリソース定義を使用して、パイプライン データセットとそのスキーマなどのリソースを表示します。 Databricksまた、リソースのデプロイと実行、パイプラインの部分的な更新の検証と実行、パイプラインの実行イベントと診断の表示、リモート Databricks ワークスペース内のリソースへの移動もできます。 バンドル構成リソースに関する情報については、 リソースを参照してください。
たとえば、単純なジョブ定義があるとします。
resources:
jobs:
my-notebook-job:
name: 'My Notebook Job'
tasks:
- task_key: notebook-task
existing_cluster_id: 1234-567890-abcde123
notebook_task:
notebook_path: notebooks/my-notebook.py
拡張機能の バンドル リソース エクスプローラー ビューには、ノートブック ジョブ リソースが表示されます。
ジョブのデプロイと実行
バンドルをデプロイするには、クラウド( バンドルのデプロイ )アイコンをクリックします。
ジョブを実行するには、[ Bundle Resource Explorer] (バンドルリソースエクスプローラー )ビューで、ジョブの名前(この例では My ノートブック ジョブ )を選択します。 次に、プレイ ( バンドルのデプロイとリソースの実行 ) アイコンをクリックします。
実行中のジョブを表示するには、「 バンドル・リソース・エクスプローラー 」ビューで、ジョブ名を展開し、「 実行状況 」をクリックしてから、リンク ( 外部リンクを開く ) アイコンをクリックします。
パイプラインの問題を検証して診断する
パイプラインの場合、検証と部分的な更新をトリガーするには、パイプラインを選択し、チェック ( バンドルのデプロイとパイプラインの検証 ) アイコンを選択します。 実行のイベントが表示され、Visual Studio Code の [問題 ] パネル内でエラーを診断できます。
バンドル変数ビュー
Visual Studio Code の Databricks 拡張機能の [バンドル変数ビュー ] ビューには、バンドル構成で定義されているカスタム変数と関連設定が表示されます。 また、Bundles Variables View を使用して変数を直接定義することもできます。これらの値は、バンドル設定ファイルで設定された値を上書きします。 カスタム変数に関する情報については、「 カスタム変数」を参照してください。
たとえば、拡張機能の Bundle Variables View ビューには、次のように表示されます。
このバンドル構成で定義されている変数 my_custom_var
の場合:
variables:
my_custom_var:
description: 'Max workers'
default: '4'
resources:
jobs:
my_job:
name: my_job
tasks:
- task_key: notebook_task
job_cluster_key: job_cluster
notebook_task:
notebook_path: ../src/notebook.ipynb
job_clusters:
- job_cluster_key: job_cluster
new_cluster:
spark_version: 13.3.x-scala2.12
node_type_id: i3.xlarge
autoscale:
min_workers: 1
max_workers: ${var.my_custom_var}