パッケージリポジトリからのライブラリのインストール
Databricks には、PyPI、Maven、CRAN パッケージリポジトリからライブラリをインストールするためのツールが用意されています。 ライブラリの互換性の詳細については、 コンピュートスコープのライブラリ を参照してください。
ライブラリは、Databricks Runtime 14.3 LTS 以前を使用している場合は DBFS からインストールできます。 ただし、ワークスペース ユーザーは誰でも DBFS に格納されているライブラリ ファイルを変更できます。 Databricksワークスペースでのライブラリのセキュリティを向上させるために、DBFSルートへのライブラリファイルの保存は、Databricks Runtime 15.1 以降のデフォルトによって非推奨になり、無効になっています。「 Storing Library in DBFSRoutes is deprecated and disabled by デフォルト」を参照してください。
Databricks代わりに、 ライブラリ、 ファイル、 コネクタを含むすべてのライブラリをワークスペースPython JARSparkファイルまたは ボリュームにアップロードするかUnity Catalog 、ライブラリ パッケージ リポジトリを使用することをお勧めします。ワークロードがこれらのパターンをサポートしていない場合は、クラウド・オブジェクト・ストレージに保管されているライブラリーも使用できます。
PyPI パッケージ
-
[ライブラリソース ]ボタンリストで、[ PyPI] を選択します。
-
PyPI パッケージ名を入力します。 特定のバージョンのライブラリをインストールするには、ライブラリに次の形式を使用します。
<library>==<version>
. たとえば、scikit-learn==0.19.1
.
ジョブの場合、Databricks では、再現可能な環境を確保するためにライブラリのバージョンを指定することをお勧めします。ライブラリのバージョンが完全に指定されていない場合、Databricks は一致する最新のバージョンを使用します。 つまり、同じジョブの異なる実行では、新しいバージョンが発行されるときに異なるライブラリ バージョンが使用される可能性があります。 ライブラリのバージョンを指定すると、ライブラリ内の新しい破壊的変更によってジョブが中断されるのを防ぐことができます。
-
(オプション)Index URL フィールドに PyPI インデックス URL を入力します。
-
[ インストール ] をクリックします。
Maven または Spark パッケージ
標準アクセス モード (以前の共有アクセス モード) で構成されたコンピュートに Maven ライブラリをインストールするには、座標を許可リストに追加する必要があります。 Allowlist ライブラリと initスクリプト on 標準アクセスモード (旧称 Shared Access Mode) のコンピュートを参照してください。
DBR 14.3 LTS 以下の場合、Databricks は Apache Ivy 2.4.0 を使用して Maven パッケージを解決します。 DBR 15.0 以降の場合、Databricks は Ivy 2.5.1 以降を使用し、特定の Ivy バージョンは Databricks Runtime リリースノートのバージョンと互換性に記載されています。
Maven パッケージのインストール順序は、最終的な依存関係ツリーに影響を与える場合があり、ライブラリが読み込まれる順序に影響を与える可能性があります。
-
[ライブラリ ソース ] ボタンの一覧で、[ Maven ] を選択します。
-
Maven座標を指定します。以下のいずれかを実行します。
- (座標)フィールドに、インストールするライブラリのMaven座標を入力します。 Maven 座標は
groupId:artifactId:version
;たとえば、com.databricks:spark-avro_2.10:1.0.0
. - 正確な座標がわからない場合は、ライブラリ名を入力して [ パッケージの検索 ] をクリックします。 一致するパッケージのリストが表示されます。 パッケージの詳細を表示するには、パッケージの名前をクリックします。 パッケージは、名前、組織、および評価で並べ替えることができます。 検索バーにクエリを記述して、結果をフィルタリングすることもできます。 結果は自動的に更新されます。
- 左上のドロップダウンリストで [Maven Central または Spark パッケージ ] を選択します。
- 必要に応じて、[リリース] 列でパッケージ バージョンを選択します。
- パッケージの横にある [+ 選択] をクリックします。 [座標] フィールドには、選択したパッケージとバージョンが入力されます。
- (座標)フィールドに、インストールするライブラリのMaven座標を入力します。 Maven 座標は
-
(オプション)(リポジトリ)フィールドに、MavenリポジトリのURLを入力できます。
内部 Maven リポジトリはサポートされていません。
- 「除外 」フィールドには、オプションで、除外する依存関係の
groupId
とartifactId
を指定します(例:log4j:log4j
)。
Maven はルートに最も近いバージョンを使用し、依存関係が異なるバージョンを争う 2 つのパッケージの場合、順序が重要になるため、古い依存関係を持つパッケージが最初に読み込まれると失敗する可能性があります。
これを回避するには、[ 除外] フィールドを使用して、競合するライブラリを除外します。
- [ インストール ] をクリックします。
CRANパッケージ
- ライブラリ ソース ボタンの一覧で、[ CRAN ] を選択します。
- パッケージフィールドに、パッケージの名前を入力します。
- (オプション)[リポジトリ] フィールドに、CRAN リポジトリの URL を入力できます。
- [ インストール ] をクリックします。
CRAN ミラーは、ライブラリの最新バージョンを提供します。 その結果、ライブラリを異なる時間に異なるクラスターにアタッチすると、R パッケージのバージョンが異なる可能性があります。 Databricks で R パッケージ バージョンを管理および修正する方法については、 ナレッジ ベースを参照してください。