Visual Studio Code の Databricks 拡張機能を使用して Databricks プロジェクトを構成する
Visual Studio Code の Databricks 拡張機能には、拡張機能パネル内に [構成 ] ビューが用意されており、Databricks プロジェクトの設定を簡単に構成および更新できます。 これらの機能には、ターゲット ワークスペース デプロイ セレクター、認証とコンピュートの簡単な構成、ワークスペース フォルダーの同期、デバッグに必要な Python 仮想環境をアクティブ化するための簡単な手順が含まれます。
Visual Studio Code の Databricks 拡張機能内の [構成 ] ビューは、プロジェクトを作成または Databricks プロジェクトに移行した後で使用できます。 「新しい Databricks プロジェクトを作成する」を参照してください。
以前のバージョンの Databricks 拡張機能 for Visual Studio Code では、プロジェクトの JSON ファイルで構成設定を定義し、環境変数がターミナルで設定されていました。 リリース バージョンでは、プロジェクトと環境の構成は databricks.yml
ファイルと databricks.env
ファイルにあります。
プロジェクトが Databricks アセット バンドルの場合、Databricks 拡張 UI には、バンドル リソース と変数を管理するための [Bundle リソース Explorer ] と [Bundle Variables View ] も用意されています。「Databricks Asset Bundles 拡張機能」を参照してください。
ターゲット・デプロイメント・ワークスペースの変更
Databricks プロジェクトのデプロイ ターゲットを選択または切り替えるには (たとえば、 dev
ターゲットから prod
ターゲットに切り替えるには):
-
Databricks 拡張パネルの [構成 ] ビューで、 ターゲット に関連付けられている歯車アイコン ( [Databricks アセットバンドルターゲットの選択 ]) をクリックします。
-
コマンド パレット で、目的のデプロイ ターゲットを選択します。
ターゲットが設定されると、 ホスト とデプロイメント Mode が表示されます。 アセットバンドルDatabricksデプロイモードに関する情報については、「アセットバンドルのデプロイモードDatabricks」を参照してください。
ワークスペース ホストは、プロジェクトに関連付けられている databricks.yml
構成ファイルのターゲット workspace
設定を変更することで変更できます。「ターゲット」を参照してください。
Visual Studio Code 機能用の次の Databricks 拡張機能は、ターゲット デプロイ モードが開発の場合にのみ使用できます。
- 添付の development クラスターをバンドルジョブに使用する
- ワークスペースフォルダファイルを同期する
- 対話型開発クラスターの選択
プロジェクトの Databricks プロファイルを構成する
Databricks プロジェクト を作成する とき、またはプロジェクトを Databricks プロジェクト に変換する ときは、Databricks への接続に使用される認証設定を含むプロファイルを構成します。 使用する認証プロファイルを変更する場合は、 設定 ビューで AuthType に関連付けられている歯車アイコンをクリックします。
Visual Studio Code 認証の拡張機能 Databricks 詳細については、「 Visual Studio Code の Databricks 拡張機能の承認を設定する」を参照してください。
コードとジョブを実行するためのコンピュートを選択
Visual Studio Code の Databricks 拡張機能を使用すると、サーバレスを選択したり、既存の Databricks クラスタリングを選択したり、新しい Databricks クラスタリングを作成したりして、コードとジョブを実行できます。 コンピュートに接続すると、クラスタリングのID、 Databricks Runtime バージョン、作成者、状態、アクセスモードが表示されます。 また、クラスタリングを開始および停止したり、クラスタリングのページ詳細に直接移動したりすることもできます。
ジョブ クラスタリングが起動するのを待たない場合は、クラスタリング選択のすぐ下にある [Override Jobs clustering] (バンドル内のジョブ クラスタリングをオーバーライド する) をオンにして、選択したクラスタリングを開発モードでバンドル ジョブを実行するために使用します。 サーバレス コンピュートを使用している場合は使用できません。
サーバレスを使用する
サーバレス コンピュートは Databricksによって管理されています。 サーバレス コンピュートでワークロードを実行すると、必要なコンピュート リソースが自動的に割り当てられ、管理 Databricks 。
-
「Configuration 」ビューで、「 クラスター 」の横にある「 Select a clustering」または歯車の「Select a clustering 」または「Select a clustering」アイコン ( Configure clustering ) をクリックします。
-
コマンド パレット で、[ サーバレス ] を選択します。
既存のクラスターを使用する
使用する既存の Databricks クラスターがある場合:
-
「Configuration 」ビューで、「 クラスター 」の横にある「 Select a clustering」または歯車の「Select a clustering 」または「Select a clustering」アイコン ( Configure clustering ) をクリックします。
-
コマンド パレット で、使用するクラスターを選択します。
新しいクラスターを作成する
既存の Databricks クラスターがない場合、または新しいクラスターを作成する場合は、次のようにします。
-
「Configuration 」ビューで、「 クラスター 」の横にある歯車( 「Configure clustering 」)アイコンをクリックします。
-
コマンド パレット で、[ 新しいクラスターの作成 ] をクリックします。
-
外部 Web サイト (Databricks ワークスペース) を開くように求められたら、[ 開く ] をクリックします。
-
メッセージが表示されたら、Databricks ワークスペースにサインインします。
-
指示に従って クラスターを作成します。
Databricksパーソナル コンピュート クラスターを作成することをお勧めします。これにより、ワークロードの実行をすぐに開始でき、コンピュート管理のオーバーヘッドを最小限に抑えることができます。
-
クラスターが作成されて実行されたら、Visual Studio Code に戻ります。
-
「Configuration 」ビューで、「 クラスター 」の横にある歯車( 「Configure clustering 」)アイコンをクリックします。
コマンド パレット で、使用するクラスターをクリックします。
ワークスペース フォルダーを Databricks と同期する
Databricks 拡張パネル の構成 ビューで 、リモート フォルダー に関連付けられている同期アイコン ( 同期の開始 ) をクリックすると、Databricks プロジェクトに関連付けられているリモート Databricks ワークスペース フォルダーを同期できます。
Visual Studio Code の Databricks 拡張機能は、作成したワークスペース ディレクトリでのみ機能します。 プロジェクト内の既存のワークスペースディレクトリは、拡張機能によって作成されていない限り、使用できません。
Databricks のワークスペース ビューに移動するには、 リモート フォルダー に関連付けられている外部リンク アイコン ( 外部リンクを開く) アイコンをクリックします。
この拡張機能は、プロジェクトに関連付けられている Databricks アセット バンドル構成のworkspace
マッピングの file_path
設定に基づいて、使用する Databricks ワークスペース フォルダーを決定します。ワークスペースを参照してください。
Visual Studio Code の Databricks 拡張機能は、ローカルの Visual Studio Code プロジェクトからリモートの Databricks ワークスペース内の関連するワークスペース フォルダーへのファイル変更の一方向の自動同期のみを実行します。 このリモート・ワークスペース・ディレクトリ内のファイルは、一時的なものとして意図されています。 これらのファイルに対する変更は、ローカル プロジェクトに同期されないため、リモート ワークスペース内から開始しないでください。
以前のバージョンの Visual Studio Code 用 Databricks 拡張機能のワークスペース ディレクトリ同期機能の使用方法の詳細については、「 Visual Studio Code 用 Databricks 拡張機能のワークスペース ディレクトリを選択する」を参照してください。
Python 環境と Databricks Connect をセットアップする
[構成 ] ビューの [Python 環境 ] セクションでは、Python 仮想開発環境のセットアップと、コードとノートブックセルの実行とデバッグのための Databricks Connect のインストールを簡単に行うことができます。Python 仮想環境では、プロジェクトで互換性のあるバージョンの Python と Python パッケージ (この場合は Databricks Connect パッケージ) が使用されていることを確認します。
プロジェクトの Python 仮想環境 を設定するには、拡張機能パネルの Configuration ビューで、次の操作を行います。
- 「Python Environment 」の下にある赤い 「Activate Virtual Environment 」項目をクリックします。
- コマンド パレット で、[Venv] または [Conda] を選択します。
- インストールする依存関係を選択します (存在する場合)。
環境を変更するには、 アクティブ環境に関連付けられている歯車アイコン ( 仮想環境を変更 )をクリックします。
Visual Studio Code 内でコードとノートブックを実行およびデバッグできるようにする のインストールに関する情報については、「Databricks ConnectDatabricks ConnectDatabricksVisual Studio Code の 拡張機能の を使用したコードのデバッグ 」を参照してください。