Databricks Connect for Python で PyCharm を使用する

この記事では、 Databricks Runtime 13.0 以降の Databricks Connect について説明します。

この記事では、Databricks Connect for Python を PyCharm で使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。

IntelliJ IDEA Ultimateは、PythonでPyCharmのプラグインサポートも提供します。 詳細については、 IntelliJ IDEA Ultimate 用の Python プラグインを参照してください。

PyCharm と Python で Databricks Connect を使用するには、 venv または Poetry の手順に従います。

PyCharm を venv と Databricks Connect for Python で使用する

  1. PyCharmを起動します。

  2. プロジェクトを作成する:「 ファイル」>「新規プロジェクト」をクリックします。

  3. [場所] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存のvenv仮想環境へのパスを選択します。

  4. [ 以前に構成したインタープリター] を選択します。

  5. [インタープリター] で、省略記号をクリックします。

  6. システム・インタープリター」をクリックします。

  7. [インタープリター] で、省略記号をクリックし、既存の venv 仮想環境にインストールされている Python インタープリターへのフル パスを選択します。次に、「 OK」をクリックします。

    ヒント

    venv仮想環境の Python インタープリターは、通常、</path-to-venv>/bin/python.詳細については、「 venv」を参照してください。

  8. もう一度 [ OK] をクリックします。

  9. 作成」をクリックします。

  10. [ 既存のソースから作成] をクリックします。

  11. サンプル コードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  12. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

  13. コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  14. コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  15. 画面の指示に従って、コードの実行またはデバッグを開始します。

より具体的な実行とデバッグの手順については、「事前の構成とデバッグなしで実行するを参照してください。

PyCharm を Poetry と Databricks Connect for Python で使用する

  1. PyCharmを起動します。

  2. プロジェクトを作成する:「 ファイル」>「新規プロジェクト」をクリックします。

  3. [場所] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の Poetry 仮想環境へのパスを選択します。

  4. [ 以前に構成したインタープリター] を選択します。

  5. [インタープリター] で、省略記号をクリックします。

  6. [ Poetry environment] をクリックします。

  7. [インタープリター] で、省略記号をクリックし、既存の Poetry 仮想環境から参照される Python インタープリターのシステム バージョンへのフル パスを選択します。次に、「 OK」をクリックします。

    ヒント

    Python インタプリタへのパスを必ず選択してください。 Poetry 実行可能ファイルへのパスは選択しないでください。

    Python インタープリターのシステム バージョンがインストールされている場所については、「 Python を PATH に追加する方法」を参照してください。

  8. もう一度 [ OK] をクリックします。

  9. 作成」をクリックします。

  10. [ 既存のソースから作成] をクリックします。

  11. サンプル コードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  12. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

  13. コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  14. コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  15. 画面の指示に従って、コードの実行またはデバッグを開始します。

より具体的な実行とデバッグの手順については、「事前の構成とデバッグなしで実行するを参照してください。