Visual Studio Code with Databricks Connect for Python

この記事では、 Databricks Runtime 13.0 以降の Databricks Connect について説明します。

この記事では、 Visual Studio Code で Databricks Connect for Python を使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Databricks Connect for Scala での Visual Studio Code の使用」を参照してください。

Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。

ヒント

Visual Studio Code の Databricks 拡張機能には、Databricks Connect for Databricks Runtime 13.0 以降が既に組み込まれています。 Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用したコードのデバッグ」を参照してください。

Databricks Connect を Visual Studio Code および Python と共に使用するには、こちらの手順に従ってください。

  1. Visual Studio Code を起動します。

  2. Python 仮想環境を含むフォルダーを開きます ([ファイル] > [フォルダーを開く])。

  3. Visual Studio コード ターミナル (> ターミナルの表示) で、仮想環境をアクティブ化します。

  4. 現在の Python インタープリターを、仮想環境から参照されるインタプリタに設定します。

    1. コマンド パレット ([表示] > [コマンド パレット]) に「 Python: Select Interpreter」と入力し、 Enter キーを押します。

    2. 仮想環境から参照される Python インタープリターへのパスを選択します。

  5. サンプルコードまたは独自のコードを含む Python コード (.py) ファイルをフォルダーに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  6. コードを実行するには、メイン メニューの [ デバッグなしで実行>実行 ] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  7. コードをデバッグするには:

    1. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

    2. サイドバーの 「実行とデバッグ 」アイコンをクリックするか、メインメニューの「 実行>表示 」をクリックします。

    3. 「実行およびデバッグ」ビューで、「実行およびデバッグ」ボタンをクリックします。

    4. 画面の指示に従って、コードの実行とデバッグを開始します。

    すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

より具体的な実行とデバッグの手順については、「VS Code でのデバッガーと Python デバッグの構成と実行」を参照してください。