Databricks Connect for Pythonをインストールする

この記事では、Databricks Runtime 13.3 LTS 以降の Databricks Connect について説明します。

この記事では、Databricks Connect for Python をインストールする方法について説明します。 「Databricks Connect とは」を参照してください。この記事の Scala バージョンについては、「 Scala 用の Databricks Connect のインストール」を参照してください。

要件

Databricks Connect for Python をインストールするには、次の要件を満たす必要があります。

  • サーバレス コンピュートに接続する場合、ワークスペースはサーバレス コンピュートの要件を満たしている必要があります。

    サーバレス コンピュートは、 Databricks Connect バージョン 15.1 以降でサポートされています。 Databricks ConnectDatabricks Runtimeまた、サーバレスの リリース以前の バージョンも完全に互換性があります。リリースノートを参照してください。Databricks Connectバージョンがサーバレス コンピュートと互換性があるかどうかを確認するには、Databricksへの接続の検証を参照してください。

  • クラスターに接続する場合、ターゲット クラスターは、Databricks Runtime のバージョン要件を含むクラスター構成要件を満たしている必要があります。

  • 開発マシンに Python 3 がインストールされている必要があり、開発マシンにインストールされている Python のマイナー バージョンが以下の表のバージョン要件を満たしている必要があります。

    クラスタータイプ

    Databricks Connect バージョン

    互換性のあるPythonバージョン

    サーバーレス

    15.1 以上

    3.11

    クラスター

    15.1 以上

    3.11

    クラスター

    13.3 LTS から 14.3 LTS

    3.10

  • ユーザー定義関数 (UDF)Python Pythonを使用している場合、Databricks Runtime のローカル マイナー バージョンは、クラスタリングまたはサーバレス コンピュートの バージョンの のマイナー バージョンと一致する必要があります。PythonDatabricks Runtimeクラスタリングの Databricks Runtimeバージョンのマイナー バージョンを見つけるには、そのバージョンの リリースノートの 「システム環境 」セクションを参照してください。 リリースノートのバージョンと互換性Databricks Runtimeサーバレス コンピュート リリースノートを参照してください。

Python仮想環境をアクティブにする

Databricks では、Databricks Connect で使用する Python バージョンごとに Python仮想環境をアクティブ化することを強くお勧めします。 Python 仮想環境は、Python と Databricks Connect の正しいバージョンを一緒に使用していることを確認するのに役立ちます。 これらのツールとその有効化方法の詳細については、 venvまたはPoetry参照してください。

Databricks Connectクライアントをインストールする

このセクションでは、 venvまたはPoetryを使用して Databricks Connect クライアントをインストールする方法について説明します。

DatabricksVisual Studio Code のDatabricks 拡張機能が既にインストールされている場合は、Visual Studio Code の 拡張機能にはDatabricks Connect Databricks Runtime13.3LTS 以降の の組み込みサポートが既に含まれているため、これらのセットアップ手順に従う必要はありません。Visual Studio Code の Databricks 拡張機能については、「Databricks Connect を使用してコードをデバッグする」にスキップします。

venvを使用して Databricks Connect クライアントをインストールする

  1. 仮想環境をアクティブ化した状態で、 uninstall コマンドを実行して、PySpark が既にインストールされている場合はアンインストールします。 これは、 databricks-connect パッケージが PySpark と競合するためです。 詳細については、「 PySpark インストールの競合」を参照してください。 PySpark が既にインストールされているかどうかを確認するには、 show コマンドを実行します。

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. 仮想環境がまだアクティブ化されている状態で、 install コマンドを実行して Databricks Connect クライアントをインストールします。 --upgrade オプションを使用して、既存のクライアント インストールを指定したバージョンにアップグレードします。

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect=X.Yではなく "ドット アスタリスク" 表記を追加してdatabricks-connect==X.Y.*を指定することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

Databricks Connect クライアントを Poetryと共にインストールする

  1. 仮想環境をアクティブ化した状態で、 remove コマンドを実行して、PySpark が既にインストールされている場合はアンインストールします。 これは、 databricks-connect パッケージが PySpark と競合するためです。 詳細については、「 PySpark インストールの競合」を参照してください。 PySpark が既にインストールされているかどうかを確認するには、 show コマンドを実行します。

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. 仮想環境をアクティブ化した状態で、 add コマンドを実行して Databricks Connect クライアントをインストールします。

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Databricks では、最新のパッケージがインストールされていることを確認するために、databricks-connect==15.4ではなく databricks-connect@~15.4 を指定する "at-tilde" 表記を使用することをお勧めします。これは必須ではありませんが、そのクラスターでサポートされている最新の機能を確実に使用できるようにするのに役立ちます。

次のステップ

Databricks Connect をインストールしたら、Databricks への接続を構成する必要があります。 については、 コンピュートの設定Databricks Connect を参照してください。