Eclipse と PyDev および Databricks Connect for Python の併用
注記
この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。
この記事では、Databricks Connect for Scala と Eclipse を PyDev と共に使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDEs、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
注記
Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります。
Databricks Connect と Eclipse を PyDev と共に使用するには、こちらの手順に従ってください。
- Eclipseを起動します。
- プロジェクトの作成: 「File」>「New > Project」>「PyDev Project」>「PyDev Project 」をクリックし、「 Next 」をクリックします。
- プロジェクト名 を指定します。
- [Project contents ] で、Python 仮想環境へのパスを指定します。
- 「 手続きを進める前に、インタープリターを設定してください 」をクリックします。
- [手動設定 ] をクリックします。
- [新規] をクリックして> Python/pypy exe を参照します 。
- 仮想環境から参照される Python インタープリターへの絶対パスを参照して選択し、[ 開く ] をクリックします。
- 「インタープリターを選択 」ダイアログで、「 OK」 をクリックします。
- 「 必要な選択 」ダイアログで、「 OK」 をクリックします。
- 「プリファレンス 」ダイアログで、「 適用して閉じる 」をクリックします。
- 「PyDev プロジェクト 」ダイアログで、「 完了」 をクリックします。
- 「パースペクティブを開く」 をクリックします。
- サンプルコードまたは独自のコードを含む Python コード (
.py
) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession
初期化する必要があります。 - Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
- コードを実行するには、[ 実行] > [実行] をクリックします 。 すべてのPython コードはローカルで実行されますが、リモートPySpark DataFrameワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべての コードは、ローカルの呼び出し元に送り返されます。
- コードをデバッグするには、[実行] > [デバッグ] をクリックします。 Pythonすべてのコードはローカルでデバッグされますが、すべてのPySparkコードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。コア Spark エンジン コードは、クライアントから直接デバッグできません。
実行とデバッグの具体的な手順については 、「プログラムの実行」を参照してください。