従来の Jupyter ノートブックを Databricks Connect for Python で使用する
注
この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。
この記事では、 従来の Jupyter ノートブックで Databricks Connect for Python を使用する方法について説明します。 Databricks Connect を使用すると、一般的なノートブック サーバー、IDE、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
注
Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。
従来の Jupyter ノートブックと Python で Databricks Connect を使用するには、こちらの手順に従ってください。
クラシック Jupyter ノートブックをインストールするには、Python 仮想環境をアクティブ化して、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。
pip3 install notebook
Web ブラウザーでクラシック Jupyter ノートブックを起動するには、アクティブ化された Python 仮想環境から次のコマンドを実行します。
jupyter notebook
従来の Jupyter ノートブック が Web ブラウザーに表示されない場合は、仮想環境から
localhost
または127.0.0.1
で始まる URL をコピーし、Web ブラウザーのアドレス バーに入力します。新しいノートブックを作成する: 従来の Jupyter ノートブックの [ ファイル ] タブで、[ Python 3 (ipykernel) >新規作成] をクリックします。
ノートブックの最初のセルに、 コード例 または独自のコードを入力します。 独自のコードを使用する場合は、少なくともコード例に示すように
DatabricksSession
初期化する必要があります。ノートブックを実行するには、[ セル] > [すべて実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。
ノートブックをデバッグするには、ノートブックの先頭に次のコード行を追加します。
from IPython.core.debugger import set_trace
次に、
set_trace()
を呼び出して、ノートブック実行のその時点でデバッグステートメントを入力します。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。従来の Jupyter ノートブックをシャットダウンするには、[ファイル] > [閉じて停止] をクリックします。 従来のJupyterノートブックプロセスがまだターミナルまたはコマンドプロンプトで実行されている場合は、
Ctrl + c
を押し、y
を入力して確認し、このプロセスを停止します。