PyDevとDatabricks Connect for Pythonで Eclipse を使用する
注
この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。
この記事では、Databricks Connect for Scala と Eclipse を PyDev で使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
注
Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。
Databricks Connect と Eclipse を PyDev で使用するには、こちらの手順に従ってください。
エクリプスを起動します。
プロジェクトを作成する: [ファイル] > [ 新しい> プロジェクト] > [PyDev プロジェクト] > [PyDev プロジェクト] をクリックし、[ 次へ] をクリックします。
プロジェクト名を指定します。
[ プロジェクト コンテンツ] で、Python 仮想環境へのパスを指定します。
[ 処理する前にインタープリターを構成してください] をクリックします。
[ 手動構成] をクリックします。
[ 新規] をクリックして> Python/pypy exexを参照します。
仮想環境から参照される Python インタープリターへの完全なパスを参照して選択し、[ 開く] をクリックします。
[ インタプリタの選択 ] ダイアログで、[ OK] をクリックします。
[ 選択が必要 ] ダイアログで、[ OK] をクリックします。
「環境設定」ダイアログで、「適用して閉じる」をクリックします。
[PyDev プロジェクト] ダイアログで、[完了] をクリックします。
「 パースペクティブを開く」をクリックします。
サンプル コードまたは独自のコードを含む Python コード (
.py
) ファイルをプロジェクトに追加します。独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession
初期化する必要があります。Python コード ファイルを開いた状態で、実行中にコードを一時停止する場所にブレークポイントを設定します。
コードを実行するには、[ 実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。
コードをデバッグするには、[ デバッグの実行>] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。
より具体的な実行およびデバッグの手順については、「 プログラムの実行」を参照してください。