メインコンテンツまでスキップ

Eclipse と PyDev および Databricks Connect for Python の併用

注記

この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。

この記事では、Databricks Connect for Scala と EclipsePyDev と共に使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDEs、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

注記

Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります

Databricks Connect と Eclipse を PyDev と共に使用するには、こちらの手順に従ってください。

  1. Eclipseを起動します。
  2. プロジェクトの作成: 「File」>「New > Project」>「PyDev Project」>「PyDev Project 」をクリックし、「 Next 」をクリックします。
  3. プロジェクト名 を指定します。
  4. [Project contents ] で、Python 仮想環境へのパスを指定します。
  5. 手続きを進める前に、インタープリターを設定してください 」をクリックします。
  6. [手動設定 ] をクリックします。
  7. [新規] をクリックして> Python/pypy exe を参照します
  8. 仮想環境から参照される Python インタープリターへの絶対パスを参照して選択し、[ 開く ] をクリックします。
  9. 「インタープリターを選択 」ダイアログで、「 OK」 をクリックします。
  10. 必要な選択 」ダイアログで、「 OK」 をクリックします。
  11. 「プリファレンス 」ダイアログで、「 適用して閉じる 」をクリックします。
  12. 「PyDev プロジェクト 」ダイアログで、「 完了」 をクリックします。
  13. 「パースペクティブを開く」 をクリックします。
  14. サンプルコードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession初期化する必要があります。
  15. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
  16. コードを実行するには、[ 実行] > [実行] をクリックします 。 すべてのPython コードはローカルで実行されますが、リモートPySpark DataFrameワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべての コードは、ローカルの呼び出し元に送り返されます。
  17. コードをデバッグするには、[実行] > [デバッグ] をクリックします。 Pythonすべてのコードはローカルでデバッグされますが、すべてのPySparkコードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。コア Spark エンジン コードは、クライアントから直接デバッグできません。

実行とデバッグの具体的な手順については 、「プログラムの実行」を参照してください。