Visual Studio Code と Databricks Connect for Python の併用
この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。
この記事では、Databricks Connect for Python を Visual Studio Code と共に使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDEs、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Databricks Connect for Scala で Visual Studio Code を使用する」を参照してください。
Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります。
Visual Studio Code の 拡張機能には、DatabricksDatabricks Connect Databricks Runtime13.3LTS 以降の が既に組み込まれています。Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用したコードのデバッグ」を参照してください。
Databricks Connect を Visual Studio Code と Python で使用するには、次の手順に従います。
-
Visual Studio Code を起動します。
-
Python 仮想環境を含むフォルダーを開きます ( [ファイル] > [フォルダーを開く ])。
-
Visual Studio Code ターミナル ( View > ターミナル ) で、仮想環境をアクティブ化します。
-
現在の Python インタープリターを、仮想環境から参照されるインタープリターに設定します。
- コマンド パレット ( [表示] > [コマンド パレット ]) で、「
Python: Select Interpreter
」と入力し、 Enter キーを押します。 - 仮想環境から参照される Python インタープリターへのパスを選択します。
- コマンド パレット ( [表示] > [コマンド パレット ]) で、「
-
サンプル コードまたは独自のコードを含む Python コード (
.py
) ファイルをフォルダに追加します。独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession
初期化する必要があります。 -
コードを実行するには、メイン メニューの [実行] > [デバッグなし ] をクリックします。 すべてのPython コードはローカルで実行されますが、リモートPySpark DataFrameワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべての コードは、ローカルの呼び出し元に送り返されます。
-
コードをデバッグするには:
- Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
- サイドバーの「 実行とデバッグ 」アイコンをクリックするか、メインメニューの 「表示」>「実行 」をクリックします。
- 「実行とデバッグ 」ビューで、「 実行とデバッグ 」ボタンをクリックします。
- 画面の指示に従って、コードの実行とデバッグを開始します。
Pythonすべてのコードはローカルでデバッグされますが、すべてのPySparkコードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。コア Spark エンジン コードは、クライアントから直接デバッグできません。
実行とデバッグの具体的な手順については、「 デバッガーの構成と実行 」と 「VS Code での Python デバッグ」を参照してください。