PyCharm と Databricks Connect for Python の併用
この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。
この記事では、Databricks Connect for Python を PyCharm と共に使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDEs、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります。
IntelliJ IDEA Ultimateは、PythonでPyCharmのプラグインサポートも提供します。 詳細については、「 IntelliJ IDEA Ultimate の Python プラグイン」を参照してください。
Databricks Connect を PyCharm と Python で使用するには、 venv または Poetry の次の手順に従います。 この記事は、PyCharm Community Edition 2023.3.5 でテストされました。 PyCharm の異なるバージョンまたはエディションを使用している場合は、次の手順が異なる場合があります。
PyCharm を venv と Databricks Connect for Python と共に使用する
-
PyCharmを起動します。
-
プロジェクトを作成する: [ファイル] > [新しいプロジェクト ] をクリックします。
-
[新しいプロジェクト] ダイアログで、 [Pure Python] をクリックします。
-
[場所 ] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の
venv
仮想環境へのパスを選択します。 -
[インタープリタータイプ ] で、[ カスタム環境 ] をクリックします。
-
環境については 、「 既存を選択」を選択します 。
-
[タイプ ] で [Python ] を選択します。
-
[ パス ] で、フォルダ アイコンまたはドロップダウン リストを使用して、既存の
venv
仮想環境の Python インタープリターへのパスを選択します。
venv
仮想環境用の Python インタープリターは、通常、</path-to-venv>/bin
.詳細については、 venv を参照してください。
-
「 OK 」をクリックします。
-
作成 をクリックします。
-
サンプルコードまたは独自のコードを含む Python コード (
.py
) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession
初期化する必要があります。 -
Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
-
コードを実行するには、[ 実行] > [実行] をクリックします 。 すべてのPython コードはローカルで実行されますが、リモートPySpark DataFrameワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべての コードは、ローカルの呼び出し元に送り返されます。
-
コードをデバッグするには、[実行] > [デバッグ] をクリックします。 Pythonすべてのコードはローカルでデバッグされますが、すべてのPySparkコードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。コア Spark エンジン コードは、クライアントから直接デバッグできません。
-
画面の指示に従って、コードの実行またはデバッグを開始します。
より具体的な実行とデバッグの手順については、 事前の設定なしでの実行 と デバッグを参照してください。
PyCharm と Poetry および Databricks Connect for Python を使用する
-
PyCharmを起動します。
-
プロジェクトを作成する: [ファイル] > [新しいプロジェクト ] をクリックします。
-
- [新しいプロジェクト] ダイアログで、 [Pure Python] をクリックします。
-
[場所 ] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の Poetry 仮想環境へのパスを選択します。
-
[インタープリタータイプ ] で、[ カスタム環境 ] をクリックします。
-
環境については 、「 既存を選択」を選択します 。
-
[タイプ ] で [Python ] を選択します。
-
[ パス ] で、フォルダ アイコンまたはドロップダウン リストを使用して、既存の Poetry 仮想環境の Python インタープリターへのパスを選択します。
Pythonインタプリタへのパスを必ず選択してください。 Poetry 実行可能ファイルへのパスは選択しないでください。
Python インタープリタのシステム バージョンがインストールされている場所については、「Python を PATH に追加する方法」を参照してください。
-
「 OK 」をクリックします。
-
作成 をクリックします。
-
サンプルコードまたは独自のコードを含む Python コード (
.py
) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession
初期化する必要があります。 -
Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
-
コードを実行するには、[ 実行] > [実行] をクリックします 。 すべてのPython コードはローカルで実行されますが、リモートPySpark DataFrameワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべての コードは、ローカルの呼び出し元に送り返されます。
-
コードをデバッグするには、[実行] > [デバッグ] をクリックします。 Pythonすべてのコードはローカルでデバッグされますが、すべてのPySparkコードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。コア Spark エンジン コードは、クライアントから直接デバッグできません。
-
画面の指示に従って、コードの実行またはデバッグを開始します。
より具体的な実行とデバッグの手順については、 事前の設定なしでの実行 と デバッグを参照してください。