Databricks Connect for Python への移行

この記事では、Databricks Connect for PythonをDatabricks Runtime 12.2 LTS 以下から Databricks Runtime 13.3 LTS 以降に移行する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブックサーバー、およびカスタムアプリケーションを Databricks クラスターに接続できます。「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Databricks Connect for Scala への移行」を参照してください。

注記

Databricks Connect の使用を開始する前に、 Databricks Connect クライアントを設定する必要があります。

次のガイドラインに従って、既存の Python コードプロジェクトまたはコーディング環境を Databricks Runtime 12.2 LTS 以下のDatabricks ConnectからDatabricks Runtime 13.3 LTS 以降のDatabricks Connectに移行します。

インストール要件に記載されている正しいバージョンのPythonを、Databricksクラスターに合わせてインストールします (まだローカルにインストールされていない場合)。
必要に応じて、クラスターに一致する正しいバージョンの PythonWindows を使用するように、Python仮想環境をアップグレードします。手順については、仮想環境プロバイダーのドキュメントを参照してください。
仮想環境をアクティブ化した状態で、仮想環境から PySpark をアンインストールします。
Bash
```
pip3 uninstall pyspark
```
仮想環境をアクティブ化したまま、Databricks Connect for Databricks Runtime 12.2 LTS 以下をアンインストールします。
Bash
```
pip3 uninstall databricks-connect
```
仮想環境をアクティブ化したまま、Databricks Connect for Databricks Runtime 13.3 LTS 以降をインストールします。
Bash
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```

注記

Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect=X.Yではなく databricks-connect==X.Y.* を指定するために "ドットアスタリスク" 表記を追加することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

Python コードを更新して、spark 変数 (PySpark の SparkSession と同様に、DatabricksSession クラスのインスタンス化を表す) を初期化します。については、コンピュートの設定Databricks Connect を参照してください。
RDD APIをデータフレーム APIを使用するように移行し、SparkContextを代替手段を使用するように移行します。

Hadoop 構成の設定

クライアントでは、SQL およびデータフレーム操作に適用される spark.conf.set API を使用して Hadoop 構成を設定できます。 sparkContextに設定するHadoop設定は、クラスター設定で設定するか、ノートブックを使用して設定する必要があります。これは、 sparkContext に設定された構成がユーザーセッションに関連付けられず、クラスター全体に適用されるためです。

Hadoop 構成の設定​

Hadoop 構成の設定