JupyterLab と Databricks Connect for Python の併用
この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。
この記事では、Databricks Connect for Python を JupyterLab と共に使用する方法について説明します。 Databricks Connect を使用すると、一般的なノートブック サーバー、 IDEs、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります。
Databricks Connect を JupyterLab と Python で使用するには、次の手順に従います。
-
JupyterLab をインストールするには、 Python 仮想環境をアクティブにして、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。
Bashpip3 install jupyterlab
-
Web ブラウザーで JupyterLab を起動するには、アクティブ化した Python 仮想環境から次のコマンドを実行します。
Bashjupyter lab
JupyterLab が Web ブラウザーに表示されない場合は、仮想環境から
localhost
または127.0.0.1
で始まる URL をコピーし、Web ブラウザーのアドレス バーに入力します。 -
新しいノートブックを作成する: JupyterLab で、メイン メニューの [ファイル] > [新しい > ノートブック ] をクリックし、[ Python 3 (ipykernel)] を選択して [選択 ] をクリックします。
-
ノートブックの最初のセルに、 サンプル コード または独自のコードを入力します。 独自のコードを使用する場合は、少なくともサンプルコードに示すように
DatabricksSession
初期化する必要があります。 -
ノートブックを実行するには、[ 実行] > [すべてのセル を実行] をクリックします。 すべてのコードはローカルで実行されますが、リモートDataFrame ワークスペースのクラスターで実行されるDatabricks 操作を含むすべてのコードと実行応答は、ローカルの呼び出し元に送り返されます。
-
ノートブックをデバッグするには、ノートブックのツールバーで Python 3 (ipykernel) の横にあるバグ ( Enable Debugger ) アイコンをクリックします。1 つ以上のブレークポイントを設定し、[ 実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカルでデバッグされますが、 Spark コードはすべてリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードは、クライアントから直接デバッグできません。
-
JupyterLab をシャットダウンするには、[ ファイル] > [シャットダウン] をクリックします。 JupyterLab プロセスがまだターミナルまたはコマンド プロンプトで実行されている場合は、
Ctrl + c
キーを押してからy
と入力して、このプロセスを停止します。
より具体的なデバッグ手順については、「 デバッガー」を参照してください。