Databricks Connect for Python で PyCharm を使用する

この記事では、 Databricks Runtime 13.0 以降の Databricks Connect について説明します。

この記事では、Databricks Connect for Python を PyCharm で使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。

IntelliJ IDEA Ultimateは、PythonでPyCharmのプラグインサポートも提供します。 詳細については、 IntelliJ IDEA Ultimate 用の Python プラグインを参照してください。

Databricks Connect を PyCharm および Python で使用するには、 venvまたはPoetryの次の手順に従ってください。 この記事は PyCharm Community Edition 2023.3.5 でテストされました。 PyCharm の異なるバージョンまたはエディションを使用する場合、次の手順は異なる場合があります。

PyCharm を venv と Databricks Connect for Python で使用する

  1. PyCharmを起動します。

  2. プロジェクトを作成する:「 ファイル」>「新規プロジェクト」をクリックします。

  3. [新しいプロジェクト]ダイアログで、 [Pure Python]をクリックします。

  4. [場所] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存のvenv仮想環境へのパスを選択します。

  5. [インタープリターの種類] で [カスタム環境] をクリックします。

  6. [環境] で [既存のものを選択] を選択します。

  7. タイプには、 Python を選択します。

  8. パスの場合は、フォルダー アイコンまたはドロップダウン リストを使用して、既存のvenv仮想環境内の Python インタープリターへのパスを選択します。

    ヒント

    venv仮想環境の Python インタープリターは、通常、</path-to-venv>/bin.詳細については、「 venv」を参照してください。

  9. OK」をクリックします。

  10. 作成」をクリックします。

  11. サンプル コードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  12. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

  13. コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  14. コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  15. 画面の指示に従って、コードの実行またはデバッグを開始します。

より具体的な実行とデバッグの手順については、「事前の構成とデバッグなしで実行するを参照してください。

PyCharm を Poetry と Databricks Connect for Python で使用する

  1. PyCharmを起動します。

  2. プロジェクトを作成する:「 ファイル」>「新規プロジェクト」をクリックします。

    1. [新しいプロジェクト]ダイアログで、 [Pure Python]をクリックします。

  3. [場所] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の Poetry 仮想環境へのパスを選択します。

  4. [インタープリターの種類] で [カスタム環境] をクリックします。

  5. [環境] で [既存のものを選択] を選択します。

  6. タイプには、 Python を選択します。

  7. パスでは、フォルダー アイコンまたはドロップダウン リストを使用して、既存の Poetry 仮想環境内の Python インタープリターへのパスを選択します。

    ヒント

    Python インタプリタへのパスを必ず選択してください。 Poetry 実行可能ファイルへのパスは選択しないでください。

    Python インタープリターのシステム バージョンがインストールされている場所については、「 Python を PATH に追加する方法」を参照してください。

  8. OK」をクリックします。

  9. 作成」をクリックします。

  10. サンプル コードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  11. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

  12. コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  13. コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  14. 画面の指示に従って、コードの実行またはデバッグを開始します。

より具体的な実行とデバッグの手順については、「事前の構成とデバッグなしで実行するを参照してください。