Databricks Connect for Python への移行
この記事では、Python の Databricks Connect for Databricks Runtime 12.2 LTS 以下から Databricks Connect for Databricks Runtime 13.3 LTS 以上に移行する方法について説明します。 Databricks Connectすると、一般的なIDEs 、データベース サーバー、カスタム アプリケーションをDatabricksクラスターに接続できます。 「Databricks Connect とは何ですか?」を参照してください。 この記事の Scala バージョンについては、 「Databricks Connect for Scala への移行」を参照してください。
注
Databricks Connectの使用を開始する前に、Databricks Connect クライアントをセットアップする必要があります。
既存の Python コード プロジェクトまたはコーディング環境を Databricks Connect for Databricks Runtime 12.2 LTS 以下から Databricks Connect for Databricks Runtime 13.3 LTS 以上に移行するには、次のガイドラインに従ってください。
Databricks クラスターに一致するように、インストール要件に記載されている正しいバージョンの Python をインストールします (まだローカルに インストール されていない場合)。
必要に応じて、クラスターに一致する正しいバージョンの Python を使用するように Python 仮想環境をアップグレードします。 手順については、仮想環境プロバイダーのドキュメントを参照してください。
仮想環境をアクティブ化した状態で、仮想環境から PySpark をアンインストールします。
pip3 uninstall pyspark
仮想環境をアクティブ化したまま、 Databricks Runtime 12.2 LTS 以下の Databricks Connect をアンインストールします。
pip3 uninstall databricks-connect
仮想環境がまだアクティブになっている状態で、Databricks Runtime 13.3 LTS 以降用の Databricks Connect をインストールします。
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
注
Databricks では、最新のパッケージがインストールされていることを確認するために、
databricks-connect=X.Y
ではなく "ドット アスタリスク" 表記を追加してdatabricks-connect==X.Y.*
を指定することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。Python コードを更新して、
spark
変数 (PySpark のSparkSession
と同様に、DatabricksSession
クラスのインスタンス化を表す) を初期化します。コード例については、「 Python のインストール Databricks 接続」を参照してください。を使用するように RDDAPIs DataFrameAPIsを移行し、代替を使用するように
SparkContext
を移行します。