メインコンテンツまでスキップ

PyCharm と Databricks Connect for Python の併用

注記

この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。

この記事では、Databricks Connect for Python を PyCharm と共に使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDEs、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

注記

Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります

IntelliJ IDEA Ultimateは、PythonでPyCharmのプラグインサポートも提供します。 詳細については、「 IntelliJ IDEA Ultimate の Python プラグイン」を参照してください。

Databricks Connect を PyCharm と Python で使用するには、 venv または Poetry の次の手順に従います。 この記事は、PyCharm Community Edition 2023.3.5 でテストされました。 PyCharm の異なるバージョンまたはエディションを使用している場合は、次の手順が異なる場合があります。

PyCharm を venv と Databricks Connect for Python と共に使用する

  1. PyCharmを起動します。

  2. プロジェクトを作成する: [ファイル] > [新しいプロジェクト ] をクリックします。

  3. [新しいプロジェクト] ダイアログで、 [Pure Python] をクリックします。

  4. [場所 ] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の venv 仮想環境へのパスを選択します。

  5. [インタープリタータイプ ] で、[ カスタム環境 ] をクリックします。

  6. 環境については 、「 既存を選択」を選択します

  7. [タイプ ] で [Python ] を選択します。

  8. [ パス ] で、フォルダ アイコンまたはドロップダウン リストを使用して、既存の venv 仮想環境の Python インタープリターへのパスを選択します。

ヒント

venv仮想環境用の Python インタープリターは、通常、</path-to-venv>/bin.詳細については、 venv を参照してください。

  1. OK 」をクリックします。

  2. 作成 をクリックします。

  3. サンプルコードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession初期化する必要があります。

  4. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

  5. コードを実行するには、[ 実行] > [実行] をクリックします 。 すべてのPython コードはローカルで実行されますが、リモートPySpark DataFrameワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべての コードは、ローカルの呼び出し元に送り返されます。

  6. コードをデバッグするには、[実行] > [デバッグ] をクリックします。 Pythonすべてのコードはローカルでデバッグされますが、すべてのPySparkコードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。コア Spark エンジン コードは、クライアントから直接デバッグできません。

  7. 画面の指示に従って、コードの実行またはデバッグを開始します。

より具体的な実行とデバッグの手順については、 事前の設定なしでの実行デバッグを参照してください

PyCharm と Poetry および Databricks Connect for Python を使用する

  1. PyCharmを起動します。

  2. プロジェクトを作成する: [ファイル] > [新しいプロジェクト ] をクリックします。

    1. [新しいプロジェクト] ダイアログで、 [Pure Python] をクリックします。
  3. [場所 ] で、フォルダー アイコンをクリックし、「Databricks Connect for Python のインストール」で作成した既存の Poetry 仮想環境へのパスを選択します。

  4. [インタープリタータイプ ] で、[ カスタム環境 ] をクリックします。

  5. 環境については 、「 既存を選択」を選択します

  6. [タイプ ] で [Python ] を選択します。

  7. [ パス ] で、フォルダ アイコンまたはドロップダウン リストを使用して、既存の Poetry 仮想環境の Python インタープリターへのパスを選択します。

ヒント

Pythonインタプリタへのパスを必ず選択してください。 Poetry 実行可能ファイルへのパスは選択しないでください。

Python インタープリタのシステム バージョンがインストールされている場所については、「Python を PATH に追加する方法」を参照してください。

  1. OK 」をクリックします。

  2. 作成 をクリックします。

  3. サンプルコードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession初期化する必要があります。

  4. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

  5. コードを実行するには、[ 実行] > [実行] をクリックします 。 すべてのPython コードはローカルで実行されますが、リモートPySpark DataFrameワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべての コードは、ローカルの呼び出し元に送り返されます。

  6. コードをデバッグするには、[実行] > [デバッグ] をクリックします。 Pythonすべてのコードはローカルでデバッグされますが、すべてのPySparkコードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。コア Spark エンジン コードは、クライアントから直接デバッグできません。

  7. 画面の指示に従って、コードの実行またはデバッグを開始します。

より具体的な実行とデバッグの手順については、 事前の設定なしでの実行デバッグを参照してください