Databricks Connect for Python をインストールする
この記事では、Databricks Runtime13.3LTS以降のDatabricks Connectについて説明します。
この記事では、Databricks Connect for Python をインストールする方法について説明します。「 Databricks Connect とは」を参照してください。
必要条件
Databricks Connect をインストールする前に、ワークスペースとローカル環境が要件を満たしていることを確認してください。「 Databricks Connect の使用要件」を参照してください。
Python 仮想環境をアクティブ化する
Databricksと共に使用するPython バージョンごとに、 仮想環境 Python Databricks Connectをアクティブ化することを強くお勧めします。Python 仮想環境は、Python と Databricks Connect の正しいバージョンを一緒に使用していることを確認するのに役立ちます。 これらのツールの詳細とアクティブ化方法については、 venv または Poetryを参照してください。
Databricks Connect クライアントをインストールする
このセクションでは、venv または Poetryを使用して Databricks Connect クライアント をインストールする方法について説明します。
Visual Studio Code 用の Databricks 拡張機能が既にインストールされている場合は、拡張機能を使用して Databricks Connect for Databricks Runtime 13.3 LTS 以降をインストールできます。Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用したコードのデバッグ」を参照してください。
Databricks Connect クライアントを venv でインストールする
-
仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、
uninstall
コマンドを実行してアンインストールします。 これは、databricks-connect
パッケージがPySparkと競合するためです。 詳細については、 PySpark インストールの競合を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、show
コマンドを実行します。Bash# Is PySpark already installed?
pip3 show pyspark
# Uninstall PySpark
pip3 uninstall pyspark -
仮想環境をアクティブ化したまま、
install
コマンドを実行して Databricks Connect クライアントをインストールします。--upgrade
オプションを使用して、既存のクライアント・インストールを指定したバージョンにアップグレードします。Bashpip3 install --upgrade "databricks-connect==16.4.*" # Or X.Y.* to match your cluster version.
Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect=X.Y
ではなく databricks-connect==X.Y.*
を指定するために "ドット アスタリスク" 表記を追加することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。
Poetry を使用して Databricks Connect クライアントをインストールする
-
仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、
remove
コマンドを実行してアンインストールします。 これは、databricks-connect
パッケージがPySparkと競合するためです。 詳細については、 PySpark インストールの競合を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、show
コマンドを実行します。Bash# Is PySpark already installed?
poetry show pyspark
# Uninstall PySpark
poetry remove pyspark -
仮想環境をアクティブ化したまま、
add
コマンドを実行して Databricks Connect クライアントをインストールします。Bashpoetry add databricks-connect@~16.4 # Or X.Y to match your cluster version.
Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect==16.4
ではなく "at-tilde" 表記を使用して "databricks-connect@~16.4
" を指定することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。