メインコンテンツまでスキップ

Databricks Connect for Python をインストールする

注記

この記事では、Databricks Runtime13.3LTS以降のDatabricks Connectについて説明します。

この記事では、Databricks Connect for Python をインストールする方法について説明します。「 Databricks Connect とは」を参照してください。

必要条件

Databricks Connect をインストールする前に、ワークスペースとローカル環境が要件を満たしていることを確認してください。「 Databricks Connect の使用要件」を参照してください。

Python 仮想環境をアクティブ化する

Databricksと共に使用するPython バージョンごとに、 仮想環境 Python Databricks Connectをアクティブ化することを強くお勧めします。Python 仮想環境は、Python と Databricks Connect の正しいバージョンを一緒に使用していることを確認するのに役立ちます。 これらのツールの詳細とアクティブ化方法については、 venv または Poetryを参照してください。

Databricks Connect クライアントをインストールする

このセクションでは、venv または Poetryを使用して Databricks Connect クライアント をインストールする方法について説明します。

注記

Visual Studio Code 用の Databricks 拡張機能が既にインストールされている場合は、拡張機能を使用して Databricks Connect for Databricks Runtime 13.3 LTS 以降をインストールできます。Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用したコードのデバッグ」を参照してください。

Databricks Connect クライアントを venv でインストールする

  1. 仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、 uninstall コマンドを実行してアンインストールします。 これは、 databricks-connect パッケージがPySparkと競合するためです。 詳細については、 PySpark インストールの競合を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、 show コマンドを実行します。

    Bash
    # Is PySpark already installed?
    pip3 show pyspark

    # Uninstall PySpark
    pip3 uninstall pyspark
  2. 仮想環境をアクティブ化したまま、 install コマンドを実行して Databricks Connect クライアントをインストールします。 --upgrade オプションを使用して、既存のクライアント・インストールを指定したバージョンにアップグレードします。

    Bash
    pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
注記

Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect=X.Yではなく databricks-connect==X.Y.* を指定するために "ドット アスタリスク" 表記を追加することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

Poetry を使用して Databricks Connect クライアントをインストールする

  1. 仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、 remove コマンドを実行してアンインストールします。 これは、 databricks-connect パッケージがPySparkと競合するためです。 詳細については、 PySpark インストールの競合を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、 show コマンドを実行します。

    Bash
    # Is PySpark already installed?
    poetry show pyspark

    # Uninstall PySpark
    poetry remove pyspark
  2. 仮想環境をアクティブ化したまま、 add コマンドを実行して Databricks Connect クライアントをインストールします。

    Bash
    poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
注記

Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect==16.4ではなく "at-tilde" 表記を使用して "databricks-connect@~16.4" を指定することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。