メインコンテンツまでスキップ

JupyterLab と Databricks Connect for Python の併用

注記

この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。

この記事では、Databricks Connect for Python を JupyterLab と共に使用する方法について説明します。 Databricks Connect を使用すると、一般的なノートブック サーバー、 IDEs、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

注記

Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります

Databricks Connect を JupyterLab と Python で使用するには、次の手順に従います。

  1. JupyterLab をインストールするには、 Python 仮想環境をアクティブにして、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。

    Bash
    pip3 install jupyterlab
  2. Web ブラウザーで JupyterLab を起動するには、アクティブ化した Python 仮想環境から次のコマンドを実行します。

    Bash
    jupyter lab

    JupyterLab が Web ブラウザーに表示されない場合は、仮想環境から localhost または 127.0.0.1 で始まる URL をコピーし、Web ブラウザーのアドレス バーに入力します。

  3. 新しいノートブックを作成する: JupyterLab で、メイン メニューの [ファイル] > [新しい > ノートブック ] をクリックし、[ Python 3 (ipykernel)] を選択して [選択 ] をクリックします。

  4. ノートブックの最初のセルに、 サンプル コード または独自のコードを入力します。 独自のコードを使用する場合は、少なくともサンプルコードに示すようにDatabricksSession初期化する必要があります。

  5. ノートブックを実行するには、[ 実行] > [すべてのセル を実行] をクリックします。 すべてのコードはローカルで実行されますが、リモートDataFrame ワークスペースのクラスターで実行されるDatabricks 操作を含むすべてのコードと実行応答は、ローカルの呼び出し元に送り返されます。

  6. ノートブックをデバッグするには、ノートブックのツールバーで Python 3 (ipykernel) の横にあるバグ ( Enable Debugger ) アイコンをクリックします。1 つ以上のブレークポイントを設定し、[ 実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカルでデバッグされますが、 Spark コードはすべてリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードは、クライアントから直接デバッグできません。

  7. JupyterLab をシャットダウンするには、[ ファイル] > [シャットダウン] をクリックします。 JupyterLab プロセスがまだターミナルまたはコマンド プロンプトで実行されている場合は、 Ctrl + c キーを押してから y と入力して、このプロセスを停止します。

より具体的なデバッグ手順については、「 デバッガー」を参照してください。