Databricks Connect for Python をインストールする
この記事では、Databricks Runtime13.3LTLTS以降のDatabricks Connectについて説明します。
この記事では、Databricks Connect for Python をインストールする方法について説明します。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Databricks Connect for Scala のインストール」を参照してください。
必要条件
Databricks Connect for Python をインストールするには、次の要件を満たす必要があります。
- サーバレス コンピュートに接続する場合、ワークスペースはサーバレス コンピュートの要件を満たしている必要があります。
サーバレス コンピュートは、 Databricks Connect バージョン 15.1 以降でサポートされています。 Databricks ConnectDatabricks Runtimeまた、サーバレスの リリース以前の バージョンも完全に互換性があります。リリースノートを参照してください。Databricks Connect バージョンがサーバレス コンピュートと互換性があるかどうかを確認するには、Databricksへの接続の検証を参照してください。
-
クラスター に接続する場合、ターゲットクラスターは、 バージョン要件を含むクラスター設定Databricks Runtime 要件を満たしている必要があります。
-
開発用マシンに Python 3 がインストールされている必要があり、開発用マシンにインストールされている Python のマイナー バージョンが、次の表のバージョン要件を満たしている必要があります。
-
ユーザー定義関数 (UDF)Python Pythonを使用している場合、Databricks Runtime のローカル マイナー バージョンは、クラスターまたはサーバレス コンピュートの バージョンの のマイナー バージョンと一致する必要があります。PythonDatabricks RuntimeクラスターのDatabricks Runtimeバージョンのマイナー バージョンを見つけるには、そのバージョンの リリースノートの 「システム環境 」セクションを参照してください。リリースノートのバージョンと互換性Databricks Runtimeおよびサーバレス コンピュート リリースノートを参照してください。
バージョンサポートマトリックス
次の表は、互換性のある Databricks Connect と Python のバージョンを示しています。 Databricks Connect のバージョン番号は、Databricks Runtime のバージョン番号に対応しています。
クラスタータイプ | Databricks Connect のバージョン | 互換性のあるPythonバージョン |
---|---|---|
サーバーレス | 16.1 以上 | 3.12 |
クラスター | 16.0 以上 | 3.12 |
クラスター | 15.0 から 15.4 LTS | 3.11 |
クラスター | 13.3 LTS から 14.3 LTS | 3.10 |
Python 仮想環境をアクティブ化する
Databricksと共に使用するPython バージョンごとに、 仮想環境 Python Databricks Connectをアクティブ化することを強くお勧めします。Python 仮想環境は、Python と Databricks Connect の正しいバージョンを一緒に使用していることを確認するのに役立ちます。 これらのツールの詳細とアクティブ化方法については、 venv または Poetryを参照してください。
Databricks Connect クライアントをインストールする
このセクションでは、Databricks Connect クライアントを venv または Poetry と共にインストールする方法について説明します。
DatabricksVisual Studio Code のDatabricks 拡張機能が既にインストールされている場合は、Visual Studio Code の 拡張機能にはDatabricks Connect Databricks Runtime13.3LTS 以降の の組み込みサポートが既に含まれているため、これらのセットアップ手順に従う必要はありません。Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用してコードをデバッグする」にスキップします。
Databricks Connect クライアントを venv でインストールする
-
仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、
uninstall
コマンドを実行してアンインストールします。 これは、databricks-connect
パッケージがPySparkと競合するためです。 詳細については、「 競合する PySpark インストール」を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、show
コマンドを実行します。Bash# Is PySpark already installed?
pip3 show pyspark
# Uninstall PySpark
pip3 uninstall pyspark -
仮想環境をアクティブ化したまま、
install
コマンドを実行して Databricks Connect クライアントをインストールします。--upgrade
オプションを使用して、既存のクライアント・インストールを指定したバージョンにアップグレードします。Bashpip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect=X.Y
ではなく databricks-connect==X.Y.*
を指定するために "ドット アスタリスク" 表記を追加することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。
Poetry を使用して Databricks Connect クライアントをインストールする
-
仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、
remove
コマンドを実行してアンインストールします。 これは、databricks-connect
パッケージがPySparkと競合するためです。 詳細については、「 競合する PySpark インストール」を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、show
コマンドを実行します。Bash# Is PySpark already installed?
poetry show pyspark
# Uninstall PySpark
poetry remove pyspark -
仮想環境をアクティブ化したまま、
add
コマンドを実行して Databricks Connect クライアントをインストールします。Bashpoetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect==15.4
ではなく "at-tilde" 表記を使用して "databricks-connect@~15.4
" を指定することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。
次のステップ
Databricks Connect をインストールしたら、Databricks への接続を構成する必要があります。 については、コンピュートの設定Databricks Connect を参照してください。