Databricks Connect for Python のトラブルシューティング
注
この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。
この記事では、Databricks Connect for Python のトラブルシューティング情報を提供します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、およびカスタム アプリケーションを Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Scala の Databricks Connect のトラブルシューティング」を参照してください。
Python のバージョンの不一致
ローカルで使用している Python のバージョンに、少なくともクラスター上のバージョンと同じマイナー リリースがあることを確認します (たとえば、 3.10.11
と 3.10.10
は OK ですが、 3.10
と 3.9
はそうではありません)。
複数の Python バージョンがローカルにインストールされている場合は、 PYSPARK_PYTHON
環境変数 ( PYSPARK_PYTHON=python3
など) を設定して、Databricks Connect で正しいバージョンが使用されていることを確認します。
競合する PySpark のインストール
databricks-connect
パッケージは PySpark と競合しています。両方をインストールすると、Python で Spark コンテキストを初期化するときにエラーが発生します。 これは、「ストリームが破損しています」や「クラスが見つかりません」エラーなど、いくつかの方法で発生する可能性があります。 Python 環境に PySpark がインストールされている場合は、databricks-connect をインストールする前に、PySpark がアンインストールされていることを確認してください。 PySpark をアンインストールした後、Databricks Connect パッケージを完全に再インストールしてください。
pip3 uninstall pyspark
pip3 uninstall databricks-connect
pip3 install --upgrade "databricks-connect==14.0.*" # or X.Y.* to match your specific cluster version.
バイナリの{0}エントリが競合または欠落しています
spark-shell
のようなコマンドが、Databricks Connect で提供されているバイナリではなく、以前にインストールされた他のバイナリを実行するように PATH が構成されている可能性があります。Databricks Connect バイナリが優先されることを確認するか、以前にインストールされたバイナリを削除する必要があります。
のようなコマンドを実行できない場合は spark-shell
PATHが pip3 install
によって自動的に設定されていない可能性があり、インストール bin
dirをPATHに手動で追加する必要があります。 Databricks Connect は、これが設定されていない場合でも、IDE で使用できます。