従来の Jupyter ノートブックを Databricks Connect for Python で使用する

この記事では、 Databricks Runtime 13.0 以降の Databricks Connect について説明します。

この記事では、 従来の Jupyter ノートブックで Databricks Connect for Python を使用する方法について説明します。 Databricks Connect を使用すると、一般的なノートブック サーバー、IDE、およびその他のカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。

従来の Jupyter ノートブックと Python で Databricks Connect を使用するには、こちらの手順に従ってください。

  1. クラシック Jupyter ノートブックをインストールするには、Python 仮想環境をアクティブ化して、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。

    pip3 install notebook
    
  2. Web ブラウザーでクラシック Jupyter ノートブックを起動するには、アクティブ化された Python 仮想環境から次のコマンドを実行します。

    jupyter notebook
    

    従来の Jupyter ノートブック が Web ブラウザーに表示されない場合は、仮想環境から localhost または 127.0.0.1 で始まる URL をコピーし、Web ブラウザーのアドレス バーに入力します。

  3. 新しいノートブックを作成する: 従来の Jupyter ノートブックの [ ファイル ] タブで、[ Python 3 (ipykernel) >新規作成] をクリックします。

  4. ノートブックの最初のセルに、 コード例 または独自のコードを入力します。 独自のコードを使用する場合は、少なくともコード例に示すようにDatabricksSession初期化する必要があります。

  5. ノートブックを実行するには、[ セル] > [すべて実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードはリモート Databricks ワークスペースのクラスターで実行され、実行応答はローカルの呼び出し元に送り返されます。

  6. ノートブックをデバッグするには、ノートブックの先頭に次のコード行を追加します。

    from IPython.core.debugger import set_trace

    次に、 set_trace() を呼び出して、ノートブック実行のその時点でデバッグステートメントを入力します。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモート Databricks ワークスペースのクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  7. 従来の Jupyter ノートブックをシャットダウンするには、[ファイル] > [閉じて停止] をクリックします。 従来のJupyterノートブックプロセスがまだターミナルまたはコマンドプロンプトで実行されている場合は、 Ctrl + c を押し、 y を入力して確認し、このプロセスを停止します。