Databricks Connect for Python で PyCharm を使用する
注
この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。
この記事では、Databricks Connect for Python を PyCharm で使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
注
Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。
IntelliJ IDEA Ultimateは、PythonでPyCharmのプラグインサポートも提供します。 詳細については、 IntelliJ IDEA Ultimate 用の Python プラグインを参照してください。
Databricks Connect を PyCharm および Python で使用するには、 venvまたはPoetryの次の手順に従ってください。 この記事は PyCharm Community Edition 2023.3.5 でテストされました。 PyCharm の異なるバージョンまたはエディションを使用する場合、次の手順は異なる場合があります。
PyCharm を venv と Databricks Connect for Python で使用する
PyCharmを起動します。
プロジェクトを作成する:「 ファイル」>「新規プロジェクト」をクリックします。
[新しいプロジェクト]ダイアログで、 [Pure Python]をクリックします。
[場所] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の
venv
仮想環境へのパスを選択します。[インタープリターの種類] で [カスタム環境] をクリックします。
[環境] で [既存のものを選択] を選択します。
タイプには、 Python を選択します。
パスの場合は、フォルダー アイコンまたはドロップダウン リストを使用して、既存の
venv
仮想環境内の Python インタープリターへのパスを選択します。ヒント
venv
仮想環境の Python インタープリターは、通常、</path-to-venv>/bin
.詳細については、「 venv」を参照してください。「OK」をクリックします。
「作成」をクリックします。
サンプル コードまたは独自のコードを含む Python コード (
.py
) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession
初期化する必要があります。Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。
コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。
画面の指示に従って、コードの実行またはデバッグを開始します。
より具体的な実行とデバッグの手順については、「事前の構成とデバッグなしで実行する」を参照してください。
PyCharm を Poetry と Databricks Connect for Python で使用する
PyCharmを起動します。
プロジェクトを作成する:「 ファイル」>「新規プロジェクト」をクリックします。
[新しいプロジェクト]ダイアログで、 [Pure Python]をクリックします。
[場所] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の Poetry 仮想環境へのパスを選択します。
[インタープリターの種類] で [カスタム環境] をクリックします。
[環境] で [既存のものを選択] を選択します。
タイプには、 Python を選択します。
パスでは、フォルダー アイコンまたはドロップダウン リストを使用して、既存の Poetry 仮想環境内の Python インタープリターへのパスを選択します。
ヒント
Python インタプリタへのパスを必ず選択してください。 Poetry 実行可能ファイルへのパスは選択しないでください。
Python インタープリターのシステム バージョンがインストールされている場所については、「 Python を PATH に追加する方法」を参照してください。
「OK」をクリックします。
「作成」をクリックします。
サンプル コードまたは独自のコードを含む Python コード (
.py
) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession
初期化する必要があります。Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。
コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。
画面の指示に従って、コードの実行またはデバッグを開始します。
より具体的な実行とデバッグの手順については、「事前の構成とデバッグなしで実行する」を参照してください。