オブジェクトストレージからのライブラリのインストール
この記事では、Databricks のクラウドオブジェクトストレージからライブラリをインストールするために必要な手順について説明します。
この記事では、一般的な概念としてクラウド オブジェクト ストレージを参照し、URI を使用してオブジェクト ストレージに格納されたデータを直接操作することを前提としています。 Databricks では、Unity Catalog ボリュームを使用して、クラウド オブジェクト ストレージ内のファイルへのアクセスを構成することをお勧めします。 Unity Catalogボリュームとはを参照してください。
カスタム JAR と Python Whl ライブラリは、 DBFSルートに格納する代わりに、クラウド オブジェクト ストレージに格納できます。 ライブラリの互換性の詳細については、 コンピュートスコープのライブラリ を参照してください。
ライブラリは、Databricks Runtime 14.3 LTS 以前を使用している場合は DBFS からインストールできます。 ただし、ワークスペース ユーザーは誰でも DBFS に格納されているライブラリ ファイルを変更できます。 Databricksワークスペースでのライブラリのセキュリティを向上させるために、DBFSルートへのライブラリファイルの保存は、Databricks Runtime 15.1 以降のデフォルトによって非推奨になり、無効になっています。「 Storing Library in DBFSRoutes is deprecated and disabled by デフォルト」を参照してください。
Databricks代わりに、 ライブラリ、 ファイル、 コネクタを含むすべてのライブラリをワークスペースPython JARSparkファイルまたは ボリュームにアップロードするかUnity Catalog 、ライブラリ パッケージ リポジトリを使用することをお勧めします。ワークロードがこれらのパターンをサポートしていない場合は、クラウド・オブジェクト・ストレージに保管されているライブラリーも使用できます。
オブジェクトストレージへのライブラリの読み込み
ライブラリは、他のファイルをロードするのと同じ方法でオブジェクトストレージにロードできます。 新しいオブジェクトストレージコンテナを作成したり、クラウドオブジェクトストレージにファイルをロードしたりするには、クラウドプロバイダーに適切な権限が必要です。
オブジェクトストレージへの読み取り専用権限の付与
Databricks では、ライブラリのインストールに関連するすべての特権を読み取り専用のアクセス許可で構成することをお勧めします。
Databricks を使用すると、クラウドオブジェクトストレージ内のデータへのアクセスを制御する個々のクラスターにセキュリティ アクセス許可を割り当てることができます。 これらのポリシーを拡張して、ライブラリを含むクラウドオブジェクトストレージへの読み取り専用アクセスを追加できます。
Databricks Runtime 12.2 LTS 以前では、標準アクセス モード (以前の共有アクセス モード) でクラスターを使用すると、JAR ライブラリを読み込むことはできません。Databricks Runtime 13.3 LTS 以降では、JAR ライブラリをUnity Catalog許可リストに追加する必要があります。Allowlist ライブラリと initスクリプト on 標準アクセスモード (旧称 Shared Access Mode) のコンピュートを参照してください。
Databricks では、Google Cloud サービス アカウントを使用して、GCS に格納されているライブラリへのアクセスを管理することをお勧めします。 目的のバケットの Storage Object Viewer ロールを持つGoogle Cloudサービスアカウントを作成し、クラスターにアタッチします。 クラスターについては、Google Cloud サービスアカウントを使用してGCSバケットにアクセスするをご覧ください。
ライブラリをクラスターにインストール
クラウド・オブジェクト・ストレージに保管されているライブラリをクラスターにインストールするには、以下のステップを実行します。
- クラスターUIのリストからクラスターを選択します。
- 「ライブラリ」 タブを選択します。
- [ファイルパス/GCS] オプションを選択します。
- ライブラリ オブジェクトへの完全な URI パス (
gs://bucket-name/path/to/library.whl
など) を指定します。 - [ インストール ] をクリックします。
REST API または CLI を使用してライブラリをインストールすることもできます。
ノートブックへのライブラリのインストール
%pip
を使用して、ノートブック分離の SparkSession をスコープとするオブジェクト ストレージに格納されているカスタム Python wheel ファイルをインストールできます。この方法を使用するには、ライブラリをパブリックに読み取り可能なオブジェクトストレージに保存するか、事前署名付きURLを使用する必要があります。
ノートブック スコープの Python ライブラリを参照してください。
JAR ライブラリをノートブックにインストールできません。 JAR ライブラリは、クラスター レベルでインストールする必要があります。