JupyterLab を Databricks Connect for Python と共に使用する

この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。

この記事では、 JupyterLab で Databricks Connect for Python を使用する方法について説明します。 Databricks Connect を使用すると、一般的なノートブック サーバー、IDE、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。

Databricks Connect を JupyterLab および Python で使用するには、こちらの手順に従ってください。

  1. JupyterLab をインストールするには、Python 仮想環境をアクティブ化した状態で、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。

    pip3 install jupyterlab
    
  2. Web ブラウザーで JupyterLab を起動するには、アクティブ化された Python 仮想環境から次のコマンドを実行します。

    jupyter lab
    

    JupyterLab が Web ブラウザーに表示されない場合は、仮想環境から localhost または 127.0.0.1 で始まる URL をコピーし、Web ブラウザーのアドレス バーに入力します。

  3. 新しいノートブックを作成する: JupyterLab で、メイン メニューの [ファイル] > [ 新しい> ノートブック ] をクリックし、[ Python 3 (ipykernel)] を選択して [ 選択] をクリックします。

  4. ノートブックの最初のセルに、 コード例 または独自のコードを入力します。 独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  5. ノートブックを実行するには、[ 実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカルで実行されますが、DataFrame 操作に関連するすべてのコードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  6. ノートブックをデバッグするには、ノートブックのツールバーにある Python 3 (ipykernel) の横にあるバグ (デバッガーを有効にする) アイコンをクリックします。1 つ以上のブレークポイントを設定し、[ 実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカルでデバッグされますが、すべての Spark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  7. JupyterLab をシャットダウンするには、[ ファイル] > [シャットダウン] をクリックします。 JupyterLabプロセスがまだターミナルまたはコマンドプロンプトで実行されている場合は、 Ctrl + c を押し、 y を入力して確認し、このプロセスを停止します。

より具体的なデバッグ手順については、「 デバッガー」を参照してください。