オブジェクト・ストレージ からのライブラリのインストール

この記事では、Databricks のクラウド オブジェクト ストレージからライブラリをインストールするために必要な手順について説明します。

この記事では、一般的な概念としてクラウド・オブジェクト・ストレージを参照し、URIを使用してオブジェクト・ストレージに格納されたデータを直接操作することを前提としています。 Databricks では、Unity Catalog ボリュームを使用して、クラウド オブジェクト ストレージ内のファイルへのアクセスを構成することをお勧めします。 「ボリュームの作成と操作」を参照してください。

カスタム JAR および Python Whl ライブラリは、DBFS ルートに保存する代わりに、クラウド オブジェクト ストレージに保存できます。 ライブラリの完全な互換性の詳細については、クラスター スコープのライブラリを参照してください。

重要

Databricks Runtime 14.3 LTS 以下を使用する場合、ライブラリは DBFS からインストールできます。 ただし、ワークスペース ユーザーは、DBFS に格納されているライブラリ ファイルを変更できます。 Databricks ワークスペース内のライブラリのセキュリティを向上させるため、DBFS ルートへのライブラリ ファイルの保存は非推奨となり、Databricks Runtime 15.0 以降ではデフォルトで無効になっています。 「DBFS ルートへのライブラリの保存は非推奨であり、デフォルトで無効になっている」を参照してください。

代わりに、Databricks Unity Catalogではライブラリをワークスペース ファイルまたは ボリュームにアップロードするか、ライブラリ パッケージ リポジトリを使用すること をお勧めします 。ワークロードがこれらのパターンをサポートしていない場合は、クラウド オブジェクト ストレージに保存されているライブラリを使用することもできます。

オブジェクトストレージ へのライブラリのロード

ライブラリは、他のファイルをロードするのと同じ方法でオブジェクトストレージにロードできます。 クラウド・プロバイダで、新しいオブジェクト・ストレージ・コンテナを作成したり、クラウド・オブジェクト・ストレージにファイルをロードしたりするには、適切な権限が必要です。

オブジェクト・ストレージ への読み取り専用権限の付与

Databricks では、ライブラリのインストールに関連するすべての特権を読み取り専用アクセス許可で構成することをお勧めします。

Databricks を使用すると、クラウド オブジェクト ストレージ内のデータへのアクセスを制御する個々のクラスターにセキュリティ アクセス許可を割り当てることができます。 これらのポリシーを拡張して、ライブラリを含むクラウドオブジェクトストレージへの読み取り専用アクセスを追加できます。

Databricks Runtime 13.2 以前では、共有アクセスモードでクラスターを使用する場合、JAR ライブラリをロードできません。Databricks Runtime 13.3 以降では、JAR ライブラリを Unity Catalog 許可リストに追加する必要があります。共有コンピュートの許可リストライブラリとinitスクリプトを参照してください。

Databricks では、インスタンスプロファイルを使用して S3 に保存されているライブラリへのアクセスを管理することをお勧めします。 相互参照リンクの次のドキュメントを使用して、この設定を完了します。

  1. 目的のバケットに対する読み取りおよび一覧表示アクセス許可を持つ IAMロールを作成します。 「 チュートリアル: インスタンスプロファイルを使用して S3 アクセスを設定する」を参照してください。

  2. インスタンスプロファイルを使用してクラスターを起動します。 「 インスタンスプロファイル」を参照してください。

クラスター へのライブラリのインストール

クラウド・オブジェクト・ストレージに保管されているライブラリーをクラスターにインストールするには、以下のステップを実行します。

  1. クラスター UI のリストからクラスターを選択します。

  2. [ライブラリ] タブを選択します。

  3. ファイルパス/ S3 オプションを選択します。

  4. ライブラリ オブジェクトへの完全な URI パスを指定します ( s3://bucket-name/path/to/library.whlなど)。

  5. インストール」をクリックします。

REST API または CLI を使用してライブラリをインストールすることもできます。

ノートブック へのライブラリのインストール

%pipPython wheelを使用すると、ノートブックで分離された をスコープとするオブジェクト ストレージに保存されているカスタムSparkSession ファイルをインストールできます。この方法を使用するには、パブリックに読み取り可能なオブジェクト ストレージにライブラリを保存するか、署名済みの URL を使用する必要があります。

ノートブック スコープの Python ライブラリに関するページを参照してください。

JAR ライブラリはノートブックにインストールできません。 JAR ライブラリをクラスター レベルでインストールする必要があります。