管理ボリュームと外部ボリューム
この記事では、マネージドボリュームと外部ボリュームの違いと、外部ボリュームの使用を選択する理由について説明します。 Databricks では、テーブル形式以外のデータの保存とアクセス管理のための最もシンプルなソリューションとして、マネージド ボリュームを推奨しています。
Unity Catalog を使用してクラウド オブジェクト ストレージへのアクセスを構成する方法の詳細については、「 Unity Catalog を使用してクラウド オブジェクト ストレージとサービスに接続する」を参照してください。
管理対象ボリュームと外部ボリュームの動作の違い
マネージド ボリュームと外部ボリュームは、 Databricksツール、UI、 APIを使用する場合にほぼ同じエクスペリエンスを提供します。 これらのボリュームの種類の違いは次のとおりです。
マネージド ボリュームは、フルマネージド ストレージ エクスペリエンスを提供します。 これは、次のことを意味します。
- マネージドボリューム内のファイルとのすべてのやり取りは、Unity Catalog を経由する必要があります。
- ディレクトリの名前付けとデータレイアウトは、Unity Catalog によって管理されます。 ディレクトリ名には、基盤となるクラウドオブジェクトストレージアカウントでの競合を回避するためのハッシュが含まれます。
- 管理ボリュームを削除すると、このボリュームに格納されているファイルは 7 日間保持されます。7 日後、データは通常のメンテナンス操作中にクラウド テナントからの削除としてマークされます。
外部ボリュームは、クラウドオブジェクトストレージにデータガバナンスをもたらします。 これは、次のことを意味します。
- Databricks または外部システムのクラウド URI を使用して、外部ボリューム内のファイルを操作できます。
- 外部ボリューム内に作成されたすべてのディレクトリまたはアップロードされたファイルは、作成時に指定された
LOCATION
を基準にしています。 - 外部ボリュームをドロップすると、 Unity Catalogからボリュームが削除されますが、外部ロケーション内に格納されているデータは変更されません。
なぜ外部ボリュームを使用するのですか?
外部ボリュームを使用すると、Unity Catalog データガバナンスを既存のクラウドオブジェクトストレージディレクトリに追加できます。 外部ボリュームの使用例には、次のようなものがあります。
- 移行せずにデータ ファイルにガバナンスを追加します。
- Databricks によって取り込まれる、またはアクセスする必要がある他のシステムによって生成されたファイルを管理します。
- 他のシステムからクラウドオブジェクトストレージから直接アクセスする必要がある Databricks によって生成されたデータを管理します。
Databricks では、Databricks に加えて外部システムによって読み取りまたは書き込みされるテーブル形式以外のデータ ファイルを保存するには、外部ボリュームを使用することをお勧めします。 Unity Catalog外部システムからクラウド オブジェクト ストレージに対して直接実行される読み取りと書き込みを管理しないため、データポリシーがDatabricks外部で尊重されるように、クラウド アカウントで追加のポリシーと資格情報を構成する必要があります。