メインコンテンツまでスキップ

Databricks Connect for Python をインストールする

注記

この記事では、Databricks Runtime13.3LTS以降のDatabricks Connectについて説明します。

この記事では、Databricks Connect for Python をインストールする方法について説明します。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Databricks Connect for Scala のインストール」を参照してください。

必要条件

Databricks Connect for Python をインストールするには、次の要件を満たす必要があります。

注記

サーバレス コンピュートは、 Databricks Connect バージョン 15.1 以降でサポートされています。 また、サーバレスの リリース以前のバージョンのDatabricksランタイムにおけるDatabricks Connectとも完全に互換性があります。リリースノートを参照してください。Databricks Connect バージョンがサーバレス コンピュートと互換性があるかどうかを確認するには、Databricksへの接続の検証を参照してください。

  • クラスター に接続する場合、ターゲットのクラスターはDatabricks Runtime バージョン要件を含むクラスター設定の要件を満たしている必要があります。

  • 開発用マシンに Python 3 がインストールされている必要があり、開発用マシンにインストールされている Python のマイナー バージョンが、次の表のバージョン要件を満たしている必要があります。

  • ユーザー定義関数 (UDF)を使用している場合、ローカルのPythonのマイナー バージョンは、クラスターまたはサーバレス コンピュートのDatabricksランタイムバージョンのPythonのマイナー バージョンと一致する必要があります。クラスターのDatabricksランタイムバージョンにおけるPythonのマイナーバージョンを確認するには、当該バージョンのDatabricksランタイムリリースノートの システム環境 セクションを参照してください。Databricks Runtimeリリースノートのバージョンと互換性およびサーバレス コンピュート リリースノートを参照してください。

バージョンサポートマトリックス

次の表は、互換性のある Databricks Connect と Python のバージョンを示しています。 Databricks Connect のバージョン番号は、Databricks Runtime のバージョン番号に対応しています。

クラスタータイプ

Databricks Connect のバージョン

互換性のあるPythonバージョン

サーバーレス

16.1 以上

3.12

クラスター

16.0 以上

3.12

クラスター

15.0 から 15.4 LTS

3.11

クラスター

13.3 LTS から 14.3 LTS

3.10

Python 仮想環境をアクティブ化する

Databricksと共に使用するPython バージョンごとに、 仮想環境 Python Databricks Connectをアクティブ化することを強くお勧めします。Python 仮想環境は、Python と Databricks Connect の正しいバージョンを一緒に使用していることを確認するのに役立ちます。 これらのツールの詳細とアクティブ化方法については、 venv または Poetryを参照してください。

Databricks Connect クライアントをインストールする

このセクションでは、Databricks Connect クライアントを venv または Poetry と共にインストールする方法について説明します。

注記

Visual Studio Code のDatabricks 拡張機能が既にインストールされている場合は、Visual Studio Code のDatabricks拡張機能にはDatabricks Runtime13.3LTS 以降のDatabricks Connectの組み込みサポートが既に含まれているため、これらのセットアップ手順に従う必要はありません。Visual Studio Code Databricks拡張機能のDatabricks Connect を使用してコードをデバッグするにスキップします。

Databricks Connect クライアントを venv でインストールする

  1. 仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、 uninstall コマンドを実行してアンインストールします。 これは、 databricks-connect パッケージがPySparkと競合するためです。 詳細については、 PySpark インストールの競合を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、 show コマンドを実行します。

    Bash
    # Is PySpark already installed?
    pip3 show pyspark

    # Uninstall PySpark
    pip3 uninstall pyspark
  2. 仮想環境をアクティブ化したまま、 install コマンドを実行して Databricks Connect クライアントをインストールします。 --upgrade オプションを使用して、既存のクライアント・インストールを指定したバージョンにアップグレードします。

    Bash
    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
注記

Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect=X.Yではなく databricks-connect==X.Y.* を指定するために "ドット アスタリスク" 表記を追加することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

Poetry を使用して Databricks Connect クライアントをインストールする

  1. 仮想環境をアクティブ化した状態で、PySpark が既にインストールされている場合は、 remove コマンドを実行してアンインストールします。 これは、 databricks-connect パッケージがPySparkと競合するためです。 詳細については、 PySpark インストールの競合を参照してください。 PySpark がすでにインストールされているかどうかを確認するには、 show コマンドを実行します。

    Bash
    # Is PySpark already installed?
    poetry show pyspark

    # Uninstall PySpark
    poetry remove pyspark
  2. 仮想環境をアクティブ化したまま、 add コマンドを実行して Databricks Connect クライアントをインストールします。

    Bash
    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
注記

Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect==15.4ではなく "at-tilde" 表記を使用して "databricks-connect@~15.4" を指定することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

次のステップ

Databricks Connect をインストールしたら、Databricks への接続を構成する必要があります。 Databricks Connectにおけるコンピュートの設定 を参照してください。