管理対象ボリュームと外部ボリューム

この記事では、管理対象ボリュームと外部ボリュームの違いと、外部ボリュームの使用を選択する理由について説明します。 Databricks では、非表形式データの保存とアクセス管理のための最もシンプルなソリューションとして、マネージド ボリュームを推奨しています。

Unity Catalog を使用してクラウド オブジェクト ストレージへのアクセスを構成する方法の詳細については、「 Unity Catalog を使用してクラウド オブジェクト ストレージとサービスに接続する」を参照してください。

管理対象ボリュームと外部ボリュームの動作の違い

マネージド ボリュームと外部ボリュームは、 Databricksツール、UI、 APIsを使用する場合にほぼ同じエクスペリエンスを提供します。 これらのボリュームの種類の違いは次のとおりです。

マネージド ボリュームは、フルマネージド ストレージ エクスペリエンスを提供します。 これは、次のことを意味します。

  • 管理対象ボリューム内のファイルとのすべてのやり取りは、Unity Catalog を経由する必要があります。

  • ディレクトリの命名とデータ レイアウトは Unity Catalog によって管理されます。 ディレクトリ名には、基盤となるクラウド オブジェクト ストレージ アカウントでの競合を回避するためのハッシュが含まれます。

  • 管理対象ボリュームを削除すると、Databricks は 30 日以内に基礎となるデータを削除します。

外部ボリュームは、クラウド オブジェクト ストレージにデータガバナンスをもたらします。 これは、次のことを意味します。

  • Databricks または外部システムでクラウド URI を使用して、外部ボリューム内のファイルと対話できます。

  • 外部ボリューム内に作成されたすべてのディレクトリ、またはアップロードされたファイルは、作成時に指定された LOCATION を基準にしています。

  • 外部ボリュームをドロップすると、 Unity Catalogからボリュームが削除されますが、外部ロケーション内の基礎となるデータは変更されません。

外部ボリュームを使用する理由

外部ボリュームを使用すると、Unity Catalog データガバナンスを既存のクラウドオブジェクトストレージディレクトリに追加できます。 外部ボリュームの使用例には、次のようなものがあります。

  • 移行せずにデータ ファイルにガバナンスを追加します。

  • Databricks によって取り込まれたりアクセスされたりする必要がある、他のシステムによって生成されたファイルを管理します。

  • 他のシステムからクラウドオブジェクトストレージから直接アクセスする必要がある Databricks によって生成されたデータを管理します。

Databricks では、Databricks に加えて外部システムによって読み取りまたは書き込みされる非表形式のデータ ファイルを保存するには、外部ボリュームを使用することをお勧めします。 Unity Catalog外部システムからクラウド オブジェクト ストレージに対して直接実行される読み取りと書き込みを管理しないため、データポリシーがDatabricks外部で尊重されるように、クラウド アカウントで追加のポリシーと資格情報を構成する必要があります。