ボリュームとは何ですか?
ボリュームは、表形式以外のデータへのアクセスを制御する Unity Catalog オブジェクトです。クラウド・オブジェクト・ストレージ上に論理レイヤーを提供するため、一元化されたガバナンスでファイルを保存、整理、管理できます。
ボリュームに関する包括的なドキュメントについては、「 Unity Catalog ボリュームとは」を参照してください。
Unity Catalog では、次の 2 種類のボリュームがサポートされています。
- 管理対象ボリューム: Databricks は、ライフサイクルとクラウド ストレージの場所を管理します
- 外部ボリューム: クラウドストレージの場所とライフサイクルを制御します
Unity Catalog ボリュームでできること
複数のインターフェイスとツールを使用して、ボリュームでファイル管理操作を実行できます。
- カタログ エクスプローラーでファイルをアップロード、ダウンロード、参照します。「カタログ エクスプローラーとは何ですか?」を参照してください。
- Apache Spark 、 Pandas 、またはSQLを使用してプログラムでデータを読み書きします。 「ボリューム内のファイルをプログラムで操作する」を参照してください。
dbutils.fs、マジック コマンド、または bash シェル コマンドを使用してファイルを管理します。ボリューム内のファイルのユーティリティ コマンドを参照してください。
ファイル システム パスを必要とする Databricks 機能でボリュームを使用できます。ボリュームにより、ユーザーとワークスペース全体で一貫して機能する管理されたパスが提供されます。例えば:
-
データ取り込み: データ取り込みのソースの場所としてボリュームを使用します。 ボリューム内のファイルから開始し、次のコマンドを使用してテーブルに取り込みます。
COPY INTO: SQL を使用してボリュームからテーブルにファイルをロードします。COPY INTOを参照してください。- Auto Loader : ボリューム ディレクトリに到着した新しいファイルをテーブルに増分的に取り込みます。 「Auto Loader とは何ですか?」を参照してください。
- Spark読み取りAPIs : Spark読み取りAPIs (たとえば、
spark.read.load) を使用して、ボリューム パスからDataFrameにファイルを読み込み、テーブルに書き込みます。 「ボリューム内のファイルをプログラムで操作する」を参照してください。 - Databricks UI: ボリュームに保存されているファイルから直接テーブルを作成します。「ボリューム内のデータからテーブルを作成する」を参照してください。
-
コンピュート ログ配信: ログ アクセスがUnity Catalogによって管理されるように、ボリューム パスにログを書き込むようにコンピュート ログ配信を構成します。 「コンピュートのログ配信」を参照してください。
-
ファイル到着トリガー: ファイル到着トリガーを使用して、ボリュームに新しいファイルが到着したときにLakeFlowジョブを開始します。 「新しいファイルが到着したときにジョブをトリガーする」を参照してください。
-
クラスター ライブラリ: クラスター ライブラリをボリューム (JAR、ホイール、
requirements.txt) からインストールするため、ライブラリへのアクセスはUnity Catalogによって管理されます。 「ボリュームからライブラリをインストールする」を参照してください。 -
init スクリプト: クラスタースコープの init スクリプトをボリュームから保存して実行するため、init スクリプトへのアクセスはUnity Catalogによって管理されます。 クラスタースコープの init スクリプトを参照してください。
-
MLエクスペリメント アーティファクト: MLエクスペリメント アーティファクト (モデル、メトリクス、出力ファイル) をボリュームに保存すると、 MLflowエクスペリメント出力へのアクセスはUnity Catalogによって管理されます。 MLflowエクスペリメントを使用したトレーニング実行の編成」を参照してください。