PyDev と Databricks Connect for Python で Eclipse を使用する

この記事では、 Databricks Runtime 13.0 以降の Databricks Connect について説明します。

この記事では、Databricks Connect for Scala と EclipsePyDev で使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。

Databricks Connect と Eclipse を PyDev で使用するには、こちらの手順に従ってください。

  1. エクリプスを起動します。

  2. プロジェクトを作成する: [ファイル] > [ 新しい> プロジェクト] > [PyDev プロジェクト] > [PyDev プロジェクト] をクリックし、[ 次へ] をクリックします。

  3. プロジェクト名を指定します。

  4. [ プロジェクト コンテンツ] で、Python 仮想環境へのパスを指定します。

  5. [ 処理する前にインタープリターを構成してください] をクリックします。

  6. [ 手動構成] をクリックします。

  7. [ 新規] をクリックして> Python/pypy exexを参照します。

  8. 仮想環境から参照される Python インタープリターへの完全なパスを参照して選択し、[ 開く] をクリックします。

  9. [ インタプリタの選択 ] ダイアログで、[ OK] をクリックします。

  10. [ 選択が必要 ] ダイアログで、[ OK] をクリックします。

  11. 「環境設定」ダイアログで、「適用して閉じる」をクリックします。

  12. [PyDev プロジェクト] ダイアログで、[完了] をクリックします。

  13. パースペクティブを開く」をクリックします。

  14. サンプル コードまたは独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  15. Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。

  16. コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  17. コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

より具体的な実行およびデバッグの手順については、「 プログラムの実行」を参照してください。