Visual Studio Code with Databricks Connect for Python
注
この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。
この記事では、 Visual Studio Code で Databricks Connect for Python を使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Databricks Connect for Scala での Visual Studio Code の使用」を参照してください。
注
Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。
ヒント
Visual Studio Code の 拡張機能には、DatabricksDatabricks Connect Databricks Runtime13.3LTS 以降の が既に組み込まれています。Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用したコードのデバッグ」を参照してください。
Databricks Connect を Visual Studio Code および Python と共に使用するには、こちらの手順に従ってください。
Visual Studio Code を起動します。
Python 仮想環境を含むフォルダーを開きます ([ファイル] > [フォルダーを開く])。
Visual Studio コード ターミナル (> ターミナルの表示) で、仮想環境をアクティブ化します。
現在の Python インタープリターを、仮想環境から参照されるインタプリタに設定します。
コマンド パレット ([表示] > [コマンド パレット]) に「
Python: Select Interpreter
」と入力し、 Enter キーを押します。仮想環境から参照される Python インタープリターへのパスを選択します。
サンプルコードまたは独自のコードを含む Python コード (
.py
) ファイルをフォルダーに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession
初期化する必要があります。コードを実行するには、メイン メニューの [ デバッグなしで実行>実行 ] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。
コードをデバッグするには:
Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
サイドバーの 「実行とデバッグ 」アイコンをクリックするか、メインメニューの「 実行>表示 」をクリックします。
「実行およびデバッグ」ビューで、「実行およびデバッグ」ボタンをクリックします。
画面の指示に従って、コードの実行とデバッグを開始します。
すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。
より具体的な実行とデバッグの手順については、「VS Code でのデバッガーと Python デバッグの構成と実行」を参照してください。