Visual Studio Code の Databricks 拡張機能を使用して Databricks プロジェクトを構成する

Visual Studio Code の Databricks 拡張機能には、拡張機能パネル内に [構成 ] ビューが用意されており、Databricks プロジェクトの設定を簡単に構成および更新できます。 これらの機能には、ターゲット ワークスペース デプロイ セレクター、認証とコンピュートの簡単な構成、ワークスペース フォルダーの同期、デバッグに必要な Python 仮想環境をアクティブ化するための簡単なステップが含まれます。

Visual Studio Code の Databricks 拡張機能内の [構成 ] ビューは、プロジェクトを作成または Databricks プロジェクトに移行した後で使用できます。 「新しい Databricks プロジェクトを作成する」を参照してください。

注:

以前のバージョンの Databricks 拡張機能 for Visual Studio Code では、プロジェクトの JSON ファイルで構成設定を定義し、環境変数がターミナルで設定されていました。 リリース バージョンでは、プロジェクトと環境の構成は databricks.yml ファイルと databricks.env ファイルにあります。

プロジェクトが Databricks アセットバンドルの場合、Databricks 拡張 UI には、バンドルリソースと変数を管理するための Bundle リソースエクスプローラーバンドル変数ビューも用意されています。「Databricks Asset Bundles 拡張機能」を参照してください。

ターゲット・デプロイメント・ワークスペースの変更

Databricks プロジェクトのデプロイ ターゲットを選択または切り替えるには (たとえば、 dev ターゲットから prod ターゲットに切り替えるには):

  1. Databricks 拡張パネルの [構成] ビューで、ターゲットに関連付けられている歯車アイコン ([Databricks アセットバンドルターゲットの選択]) をクリックします。

    Databricks アセット バンドル ターゲットを選択します
  2. コマンド パレットで、目的のデプロイ ターゲットを選択します。

ターゲットが設定されると、 ホスト とデプロイメント Mode が表示されます。 アセットバンドルDatabricksデプロイメントモードに関する情報については、「アセットバンドルのデプロイメントモードDatabricks」を参照してください。

ワークスペース ホストは、プロジェクトに関連付けられている databricks.yml 構成ファイルのターゲット workspace設定を変更することで変更できます。「ターゲット」を参照してください。

注:

Visual Studio Code 機能用の次の Databricks 拡張機能は、ターゲット デプロイ モードが開発の場合にのみ使用できます。

  • バンドルジョブにアタッチされた開発クラスターを使用する

  • ワークスペースフォルダファイルを同期する

  • 対話型開発クラスターの選択

プロジェクトの Databricks プロファイルを構成する

Databricks プロジェクト を作成する とき、またはプロジェクトを Databricks プロジェクト に移行する ときは、Databricks への接続に使用される認証設定を含むプロファイルを構成します。 使用する認証プロファイルを変更する場合は、設定ビューで AuthType に関連付けられている歯車アイコンをクリックします。

Visual Studio Code 認証の拡張機能 Databricks 詳細については、「 Visual Studio Code の Databricks 拡張機能の認証設定」を参照してください。

コードとジョブを実行するためのクラスターを選択する

Visual Studio Code の Databricks 拡張機能を使用すると、既存の Databricks クラスターを選択するか、コードとジョブを実行するための新しい Databricks クラスターを作成できます。 コンピュートに接続すると、クラスターのID、 Databricks Runtime バージョン、作成者、状態、アクセスモードが表示されます。 また、クラスターを開始および停止したり、クラスターのページ詳細に直接移動したりすることもできます。

ヒント

ジョブ クラスターが起動するのを待ちたくない場合は、クラスター選択のすぐ下にある [ Override Jobs クラスター in bundle ] をオンにして、選択したクラスターを開発モードでバンドル ジョブを実行するために使用します。

既存のクラスターを使用する

使用する既存の Databricks クラスターがある場合:

  1. 「Configuration」ビューで、「クラスター」の横にある「Select a cluster」または歯車の「Select a cluster」または「Select a cluster」アイコン (Configure cluster) アイコンをクリックします。

    クラスターを構成する
  2. コマンドパレットで、使用するクラスターを選択します。

新しいクラスターを作成する

既存の Databricks クラスターがない場合、または新しいクラスターを作成する場合は、次のようにします。

  1. 「Configuration」ビューで、「クラスター」の横にある歯車(Configure Cluster)アイコンをクリックします。

  2. コマンド・パレットで、「新規クラスターの作成」をクリックします。

  3. 外部 Web サイト (Databricks ワークスペース) を開くように求められたら、[ 開く] をクリックします。

  4. メッセージが表示されたら、Databricks ワークスペースにサインインします。

  5. 指示に従って クラスターを作成します

    注:

    DatabricksPersonal コンピュート クラスターを作成することをお勧めします。これにより、ワークロードの実行をすぐに開始でき、コンピュート管理のオーバーヘッドを最小限に抑えることができます。

  6. クラスターが作成されて実行されたら、Visual Studio Code に戻ります。

  7. 「Configuration」ビューで、「クラスター」の横にある歯車(Configure Cluster)アイコンをクリックします。

    クラスター アイコン 3 の構成

    コマンド パレットで、使用するクラスターをクリックします。

ワークスペース フォルダーを Databricks と同期する

プロジェクトに関連付けられたリモート Databricksワークスペースフォルダを同期するには、DatabricksDatabricks 拡張機能パネルの Configuration ビューで 、ワークスペースフォルダ に関連付けられた同期アイコン ( Start synchronization ) をクリックします。

注:

Visual Studio Code の Databricks 拡張機能は、作成したワークスペース ディレクトリでのみ機能します。 プロジェクト内の既存のワークスペースディレクトリは、拡張機能によって作成されていない限り、使用できません。

Databricksでワークスペースビューに移動するには、ワークスペースフォルダに関連付けられている外部リンクアイコン(外部リンクを開く)をクリックします。

この拡張機能は、プロジェクトに関連付けられている Databricks アセット バンドル構成のworkspace マッピングの file_path 設定に基づいて、使用する Databricks ワークスペース フォルダーを決定します。ワークスペースを参照してください。

注:

Visual Studio Code の Databricks 拡張機能は、ローカルの Visual Studio Code プロジェクトからリモートの Databricks ワークスペース内の関連するワークスペース フォルダーへのファイル変更の一方向の自動同期のみを実行します。 このリモート・ワークスペース・ディレクトリ内のファイルは、一時的なものとして意図されています。 これらのファイルに対する変更は、ローカル プロジェクトに同期されないため、リモート ワークスペース内から開始しないでください。

以前のバージョンの Visual Studio Code 用 Databricks 拡張機能のワークスペース ディレクトリ同期機能の使用方法の詳細については、「 Visual Studio Code 用 Databricks 拡張機能のワークスペース ディレクトリを選択する」を参照してください。

Python 環境と Databricks Connect をセットアップする

[構成] ビューの [Python 環境] セクションでは、Python 仮想開発環境のセットアップと、コードとノートブックセルの実行とデバッグのための Databricks Connect のインストールを簡単に行うことができます。Python 仮想環境では、プロジェクトで互換性のあるバージョンの Python と Python パッケージ (この場合は Databricks Connect パッケージ) が使用されていることを確認します。

プロジェクトの Python 仮想環境 を設定するには、拡張機能パネルの Configuration ビューで、次の操作を行います。

  1. 「Python Environment」の下にある赤い「Activate Virtual Environment」項目をクリックします。

  2. コマンド パレットで、[Venv] または [Conda] を選択します。

  3. インストールする依存関係を選択します (存在する場合)。

環境を変更するには、Active Environment に関連付けられている歯車アイコン (仮想環境の変更) をクリックします。

Visual Studio Code 内でコードとノートブックを実行およびデバッグできるようにする のインストールに関する情報については、「Databricks Connect Databricks ConnectDatabricksVisual Studio Code の Visual Studio Code 拡張機能の を使用したコードのデバッグ 」を参照してください。