Unity Catalog ボリューム内のファイルを操作する

このページには、さまざまなユーザーインターフェイス、ツール、ライブラリ、言語の Unity Catalog ボリューム内のファイルを管理する例を示します。

Databricks では、クラウドオブジェクトストレージ内の非表形式データへのすべてのアクセスを管理し、ワークロードサポートファイルを格納するためにボリュームを使用することをお勧めします。たとえば、次のようなものがあります。

取り込み用のデータファイル (CSV、JSON、Parquet など)
データサイエンス、ML、AI ワークロード用のテキスト、画像、オーディオファイル
外部システムとの統合のために Databricks によって記述された CSV または JSON アーティファクト
ライブラリ, initスクリプト, and build アーティファクト

ボリュームは、ユーザー空間のファイルシステム (FUSE) に依存するツールおよびフレームワークで動作する Portable Operating System Interface (POSIX) スタイルのパスを提供します。これにより、POSIX スタイルのアクセスを必要とする機械学習フレームワークやオープンソースの Python モジュールに最適です。詳細については、URI スキーム、POSIX パス、およびそれらがボリュームとどのように関連しているかについては、「データにアクセスするために URI スキームを提供する必要がありますか?」を参照してください。

ボリューム内のファイルを管理する方法

各方法の簡単な例については、「 Unity Catalog ボリューム内のファイルの操作」を参照してください。

インターフェイス	説明
カタログエクスプローラー UI	Databricks ワークスペースを使用した対話型ファイル管理
プログラムによるアクセス	Apache Spark、Pandas、または SQL を使用してファイルの読み取りと書き込みを行います
Databricksユーティリティ	ノートブックで `dbutils.fs` コマンドまたはマジックコマンド(`%fs`、 `%sh`)を使用したファイル操作
ファイルの一覧表示とクエリ	`READ_FILES`を使用してファイルメタデータをクエリし、プロパティでフィルターします
SQL コマンド	SQL キーワード (`LIST`、 `PUT INTO`、 `GET`、 `REMOVE`) とコネクタを使用したファイル操作
Databricks CLI	コマンド `databricks fs` を使用したコマンド行操作
SDK	Python、Java、または Go SDK を使用したファイル操作
REST API	カスタム統合のための直接 API アクセス

カタログエクスプローラを使用する

カタログエクスプローラーには、Unity Catalog ボリュームに格納されているファイルの一般的なファイル管理タスクのオプションがあります。

ボリューム内のファイルを操作するには、次の操作を行います。

Databricks ワークスペースで、 カタログ をクリックします。
処理するボリュームを検索または参照して選択します。

ボリュームの作成と管理の詳細については、「 Unity Catalog ボリュームの作成と管理」を参照してください。

ボリュームへのファイルのアップロード

構造化ファイル、半構造化ファイル、非構造化ファイルなど、あらゆる形式のファイルをボリュームにアップロードできます。ボリュームは、基盤となるクラウドストレージでサポートされる最大サイズまでのファイルをサポートします。ただし、Databricks UI を介してボリュームにファイルをアップロードする場合、5 GB のファイルサイズ制限があります。5 GB を超えるファイルをアップロードするには、Python 用の Databricks SDK を使用します。詳細については、 Unity Catalogボリューム内のファイルの管理」を参照してください。

必要条件

ボリュームにアップロードする前に、次のものがあることを確認してください。

Unity Catalog が有効になっているワークスペース
WRITE VOLUME ターゲット・ボリューム上
USE SCHEMA 親スキーマで
USE CATALOG 親カタログで

詳細については、 Unity Catalog権限リファレンスを参照してください。

アップロードステップ

サイドバーで、 [新規] をクリックし、 [データを追加またはアップロード] を クリックします。
「ボリュームにファイルをアップロード」 をクリックします。
[ファイル] の下で、 [参照] をクリックするか、ファイルをドロップゾーンにドラッグアンドドロップします。
[宛先ボリューム] の下で、ボリュームまたはディレクトリを選択するか、ボリュームパスを貼り付けます。

ターゲットスキーマにボリュームが存在しない場合は、 [ボリュームの作成] をクリックしてボリュームを作成できます。ボリューム内に新しいディレクトリを作成できます。

UI を使用してボリュームにファイルをアップロードする

アップロード UI には、次の方法でもアクセスできます。

カタログエクスプローラーで データを追加 > ボリュームにファイルをアップロード
ノートブックから: ファイル > ボリュームにファイルをアップロード する

次のステップ

ボリュームにアップロードした後、次の操作を実行できます。

ファイルから Unity Catalog マネージドテーブルを作成します。ボリューム内のデータから表を作成するを参照してください。
MLおよびデータサイエンスワークロードでファイルを使用する
アップロードされたファイルを使用して、クラスターライブラリ、ノートブックスコープのライブラリ、またはジョブの依存関係を構成する
Auto Loader または COPY INTO を使用したエンジニアリングパイプラインのデータの取り込み
などの AI関数 ai_parse_documentでファイルを処理
ジョブでのファイル到着トリガーの設定
ナレッジアシスタントで使用するドキュメントをアップロードしてください。

ボリュームからファイルをダウンロードする

ボリュームからファイルをダウンロードするには、次の操作を行います。

1 つ以上のファイルを選択します。
ダウンロード をクリックして、これらのファイルをダウンロードします。

ボリュームからファイルを削除する

ボリュームからファイルを削除するには、次の操作を行います。

1 つ以上のファイルを選択します。
削除をクリックします。
削除をクリックして、表示されるダイアログで確定します。

空のディレクトリを作成する

ボリュームに新しいディレクトリを作成するには、次の操作を行います。

[ボリュームの概要] タブで、[ ディレクトリの作成 ] をクリックします。
ディレクトリ名を入力します。
作成をクリックします。

ディレクトリをダウンロードする

ボリューム内のディレクトリをダウンロードするには、次の手順を実行します。

クリックディレクトリの右側にケバブメニューがあります。
ダウンロードディレクトリ をクリックします。

ディレクトリは ZIP ファイルとしてダウンロードされます。

ボリュームからのディレクトリの削除

ボリュームからディレクトリを削除するには、次の操作を行います。

1 つ以上のディレクトリを選択します。
削除をクリックします。
削除をクリックして、表示されるダイアログで確定します。

ボリュームの UI ファイル管理タスク

ファイル名の横にあるケバブメニューをクリックして、次の操作を実行します。

パスをコピー
ファイルをダウンロード
ファイルを削除
テーブルを作成

ボリューム内のデータからテーブルを作成する

Databricks は、Unity Catalogボリュームに格納されているファイル、ファイル、またはファイルのディレクトリからUnity Catalogマネージドテーブルを作成するための UI を提供します。

ターゲットスキーマに対するCREATE TABLE権限があり、実行中のSQLウェアハウスにアクセスできる必要があります。

1 つ以上のファイルまたはディレクトリを選択します。ファイルは同じデータレイアウトである必要があります。
テーブルの作成 をクリックします。 ボリュームからテーブルを作成 ダイアログが表示されます。
表示されたダイアログを使用して、データのプレビューを確認し、次の構成を完了します。
- 新しいテーブルの作成 または 既存のテーブルを上書きする を選択します
- ターゲットの カタログ と スキーマ を選択します。
- [テーブル名] を指定します。
- (オプション)デフォルトの列名と型を上書きするか、列を除外することを選択します。

注記

詳細属性 をクリックして、追加オプションを表示します。

テーブルを作成 をクリックして、指定した属性でテーブルを作成します。完了すると、カタログエクスプローラにテーブルの詳細が表示されます。

ボリューム内のファイルをプログラムで操作する

次の形式を使用して、サポートされているすべての言語とワークスペースエディターからボリューム内のファイルを読み書きします。

/Volumes/catalog_name/schema_name/volume_name/path/to/files

ボリューム内のファイルは、クラウド・オブジェクト・ストレージの場所にあるファイルと対話するのと同じ方法で操作します。つまり、現在、クラウド URI、 DBFS マウントパス、または DBFSルートパスを使用してデータまたはファイルを操作するコードを管理している場合は、代わりにボリュームを使用するようにコードを更新できます。

注記

ボリュームは、表形式以外のデータにのみ使用されます。 Databricks では、 Unity Catalog テーブルを使用して登録する表形式データから、テーブル名を使用してデータを読み書きすることをお勧めします。

ボリューム内のデータの読み取りと書き込み

Apache Spark、Pandas、Spark SQL、およびその他の OSS ライブラリを使用して、ボリューム内のデータファイルの読み取りと書き込みを行います。

次の例は、ボリュームに保存されている CSV ファイルの読み取りを示しています。

Python
Pandas
SQL

Python
df = spark.read.format("csv").load("/Volumes/catalog_name/schema_name/volume_name/data.csv")

display(df)

Python
import pandas as pd

df = pd.read_csv('/Volumes/catalog_name/schema_name/volume_name/data.csv')

display(df)

SQL
SELECT * FROM csv.`/Volumes/catalog_name/schema_name/volume_name/data.csv`

ボリューム内のファイルに対するユーティリティー・コマンド

Databricks には、ボリューム内のファイルを管理するための次のツールが用意されています。

Databricks ユーティリティのdbutils.fsサブモジュール。ファイルシステムユーティリティ (dbutils.fs)を参照してください。
%fsマジック、これはdbutils.fsの別名です。
ボリュームに対してbashコマンドを許可する %sh マジック。

これらのツールを使用して、インターネットからファイルをダウンロードしたり、ファイルを解凍したり、エフェメラル・ブロック・ストレージからボリュームにファイルを移動したりする例は、インターネットからのデータのダウンロードを参照してください。

次の例に示すように、Python os モジュールなどのファイルユーティリティコマンドにOSSパッケージを使用することもできます。

Python
import os

os.mkdir('/Volumes/catalog_name/schema_name/volume_name/directory_name')

ボリューム内の DataFrame チェックポイント

Unity Catalogボリュームパスを使用して、 DataFrameチェックポイントを保存できます。 DataFrame チェックポイントは、DataFrame の実行プランを切り捨て、その内容をストレージに保存します。これにより、 DataFrames再利用するときに過度に長いリネージを防ぐことができ、反復アルゴリズムと複雑なクエリプランのパフォーマンスが向上します。

チェックポイントを Unity Catalog ボリュームに保存すると、チェックポイントデータにガバナンスとアクセス制御が適用され、管理されていないクラウドストレージパスから移行できるようになります。

必要条件

Databricks Runtime 18.1 以上。
専用または標準のアクセスモードを備えた Unity カタログ対応のコンピュート。ボリューム内のDataFrameチェックポイントは、サーバレスコンピュートではサポートされていません。

チェックポイントディレクトリを構成する

チェックポイントディレクトリを設定する方法は、コンピュートのアクセスモードによって異なります。

Dedicated access mode
Standard access mode

専用アクセスモードのコンピュートでは、 SparkContext.setCheckpointDirを使用します。

Python
spark.checkpoint.dir=/Volumes/<catalog>/<schema>/<volume>/checkpoint

標準アクセスモードのコンピュートでは、 spark.checkpoint.dir Spark構成を使用します。

Python
spark.conf.set("spark.checkpoint.dir", "/Volumes/<catalog>/<schema>/<volume>/checkpoints")

DataFrameチェックポイントを作成する

チェックポイントディレクトリを構成した後、 DataFrame.checkpoint()を使用して実行プランを切り捨て、データを保存します。

Python
df = spark.range(100).withColumn("doubled", col("id") * 2)
checkpointed_df = df.checkpoint()

注記

DataFrameチェックポイントは、構造化ストリーミングチェックポイントとは異なります。ストリーミングチェックポイントデータをボリュームに保存する方法については、「構造化ストリーミングチェックポイント」を参照してください。

SQL を使用してボリューム内のファイルを一覧表示およびクエリする

read_filesテーブル値関数SQL 関数を使用して、ボリューム内のファイルを一覧表示し、そのメタデータを照会することができます。これは、ファイルの検出、ファイルプロパティによるフィルタリング、 AI 機能による処理のためのファイルの準備に役立ちます。

READ_FILES format => "binaryFile"と併用すると、関数は次の列を含むテーブルを返します。

path: 完全なファイルパス
modificationTime: 最終変更タイムスタンプ
length: ファイルサイズ（バイト単位）
content: バイナリデータとしての生のファイル内容

_metadata列を選択して、 file_path 、 file_name 、 file_size 、 file_modification_timeなどの追加のファイル情報にアクセスすることもできます。

ボリューム内のすべてのファイルを一覧表示する

次の例では、バイナリコンテンツを除くボリューム内のすべてのファイルを一覧表示します。

SQL
SELECT
  * EXCEPT (content),
  _metadata
FROM read_files(
  "/Volumes/<catalog>/<schema>/<volume>",
  format => "binaryFile"
);

種類とサイズでファイルをフィルタリングする

次の例では、20 KB ～ 1 MB の画像ファイルをフィルターします。

SQL
SELECT * EXCEPT (content), _metadata
FROM read_files(
  "/Volumes/my_catalog/my_schema/my_volume",
  format => "binaryFile",
  fileNamePattern => "*.{jpg,jpeg,png,JPG,JPEG,PNG}"
)
WHERE _metadata.file_size BETWEEN 20000 AND 1000000;

変更時間でファイルをフィルタリングする

次の例では、過去 1 日間に変更された PDF ファイルを検索します。

SQL
SELECT * EXCEPT (content), _metadata
FROM read_files(
  "/Volumes/my_catalog/my_schema/my_volume",
  format => "binaryFile",
  fileNamePattern => "*.{pdf,PDF}"
)
WHERE modificationTime >= current_timestamp() - INTERVAL 1 DAY;

AI機能で画像を処理する

次の例では、 ai_query関数を使用して画像ファイルの説明を生成します。

SQL
SELECT
  path AS file_path,
  ai_query(
    'databricks-llama-4-maverick',
    'Describe this image in ten words or less: ',
    files => content
  ) AS result
FROM read_files(
  "/Volumes/my_catalog/my_schema/my_volume",
  format => "binaryFile",
  fileNamePattern => "*.{jpg,jpeg,png}"
)
WHERE _metadata.file_size < 1000000
  AND _metadata.file_name LIKE '%robots%';

AI機能でドキュメントを解析する

次の例では、 ai_parse_document関数を使用して PDF 領収書から構造化データを抽出します。

SQL
SELECT
  path AS file_path,
  ai_parse_document(content, map('version', '2.0')) AS result
FROM read_files(
  "/Volumes/main/public/my_files/",
  format => "binaryFile",
  fileNamePattern => "*.{pdf,PDF}"
)
WHERE _metadata.file_name ILIKE '%receipt%';

外部ツールからボリューム内のファイルを管理

Databricks には、ローカル環境または統合システムからボリューム内のファイルをプログラムで管理するための一連のツールが用意されています。

ボリューム内のファイルに対する SQL コマンド

Databricks では、ボリューム内のファイルを操作するために、次の SQL キーワードがサポートされています。

Databricks ノートブックと SQL クエリエディターでは、 LIST コマンドのみがサポートされています。その他の SQL コマンド (PUT INTO、 GET、 REMOVE) は、ボリューム内のファイルの管理をサポートする次の Databricks SQL コネクタとドライバーから使用できます。

Databricks CLI を使用してボリューム内のファイルを管理する

databricks fsのサブコマンドを使用します。「コマンドグループfs」を参照してください。

注記

Databricks CLI では、スキーム dbfs:/ をすべてのボリュームパスの前に配置する必要があります。たとえば、 dbfs:/Volumes/catalog_name/schema_name/volume_name/path/to/dataです。

SDKを使用してボリューム内のファイルを管理

次のSDKは、ボリューム内のファイルの管理をサポートしています。

Databricks SDK for Python。WorkspaceClient.files で使用可能なメソッドを使用します。例については、「Unity Catalog ボリューム内のファイルを管理する」を参照してください。
Databricks SDK for Java。WorkspaceClient.files で使用可能なメソッドを使用します。例については、「Unity Catalog ボリューム内のファイルを管理する」を参照してください。
Databricks SDK for Go。WorkspaceClient.files で使用可能なメソッドを使用します。例については、「Unity Catalog ボリューム内のファイルを管理する」を参照してください。

REST API を使用したボリューム内のファイルの管理

ファイル API を使用して、ボリューム内のファイルを管理します。

ボリューム内のファイルの REST API の例

次の例では、 curl と Databricks REST API を使用して、ボリューム内のファイル管理タスクを実行します。

次の例では、指定したボリュームに my-folder という名前の空のフォルダを作成します。

Bash
curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"

次の例では、ボリューム内の指定されたパスに指定されたデータを含む data.csv という名前のファイルを作成します。

Bash
curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv?overwrite=true" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
--header "Content-Type: application/octet-stream" \
--data-binary $'id,Text\n1,Hello World!'

次の例は、指定されたパス内のボリュームの内容をリストします。この例では、 jq を使用して、読みやすくするために応答本文の JSON をフォーマットします。

Bash
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .

次の例は、指定したパス内のボリューム内のフォルダの内容をリストします。この例では、 jq を使用して、読みやすくするために応答本文の JSON をフォーマットします。

Bash
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .

次の例では、ボリューム内の指定されたパスにあるファイルの内容を出力します。

Bash
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"

次の例では、指定されたパス内のファイルをボリュームから削除します。

Bash
curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"

次の例では、指定したボリュームからフォルダーを削除します。

Bash
curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"

ボリューム内のファイルの操作の制限

ボリューム内のファイルを操作する前に、次の制限事項を考慮してください。

直接追加または非順次 (ランダム) 書き込みはサポートされていません。これは、Zip ファイルや Excel ファイルの書き込みなどの操作に影響します。これらのワークロードの場合:
1. 最初にローカルディスクで操作を実行します
2. 結果をボリュームにコピーします
例えば：
Python
```
# python
import xlsxwriter
from shutil import copyfile

workbook = xlsxwriter.Workbook('/local_disk0/tmp/excel.xlsx')
worksheet = workbook.add_worksheet()
worksheet.write(0, 0, "Key")
worksheet.write(0, 1, "Value")
workbook.close()

copyfile('/local_disk0/tmp/excel.xlsx', '/Volumes/my_catalog/my_schema/my_volume/excel.xlsx')
```

スパースファイルはサポートされていません。スパースファイルをコピーするには、 cp --sparse=neverを使用します。

Bash
$ cp sparse.file /Volumes/my_catalog/my_schema/my_volume/sparse.file
error writing '/dbfs/sparse.file': Operation not supported
$ cp --sparse=never sparse.file /Volumes/my_catalog/my_schema/my_volume/sparse.file

ボリューム内のファイルを管理する方法​

カタログエクスプローラを使用する​

ボリュームへのファイルのアップロード​

必要条件​

アップロードステップ​

次のステップ​

ボリュームからファイルをダウンロードする​

ボリュームからファイルを削除する​

空のディレクトリを作成する​

ディレクトリをダウンロードする​

ボリュームからのディレクトリの削除​

ボリュームの UI ファイル管理タスク​

ボリューム内のデータからテーブルを作成する​

ボリューム内のファイルをプログラムで操作する​

ボリューム内のデータの読み取りと書き込み​

ボリューム内のファイルに対するユーティリティー・コマンド​

ボリューム内の DataFrame チェックポイント​

必要条件​

チェックポイントディレクトリを構成する​

DataFrameチェックポイントを作成する​

SQL を使用してボリューム内のファイルを一覧表示およびクエリする​

ボリューム内のすべてのファイルを一覧表示する​

種類とサイズでファイルをフィルタリングする​

変更時間でファイルをフィルタリングする​

AI機能で画像を処理する​

AI機能でドキュメントを解析する​

外部ツールからボリューム内のファイルを管理​

ボリューム内のファイルに対する SQL コマンド​

Databricks CLI を使用してボリューム内のファイルを管理する​

SDKを使用してボリューム内のファイルを管理​

REST API を使用したボリューム内のファイルの管理​

ボリューム内のファイルの REST API の例​

ボリューム内のファイルの操作の制限​

ボリューム内のファイルを管理する方法

カタログエクスプローラを使用する

ボリュームへのファイルのアップロード

必要条件

アップロードステップ

次のステップ

ボリュームからファイルをダウンロードする

ボリュームからファイルを削除する

空のディレクトリを作成する

ディレクトリをダウンロードする

ボリュームからのディレクトリの削除

ボリュームの UI ファイル管理タスク

ボリューム内のデータからテーブルを作成する

ボリューム内のファイルをプログラムで操作する

ボリューム内のデータの読み取りと書き込み

ボリューム内のファイルに対するユーティリティー・コマンド

ボリューム内の DataFrame チェックポイント

必要条件

チェックポイントディレクトリを構成する

DataFrameチェックポイントを作成する

SQL を使用してボリューム内のファイルを一覧表示およびクエリする

ボリューム内のすべてのファイルを一覧表示する

種類とサイズでファイルをフィルタリングする

変更時間でファイルをフィルタリングする

AI機能で画像を処理する

AI機能でドキュメントを解析する

外部ツールからボリューム内のファイルを管理

ボリューム内のファイルに対する SQL コマンド

Databricks CLI を使用してボリューム内のファイルを管理する

SDKを使用してボリューム内のファイルを管理

REST API を使用したボリューム内のファイルの管理

ボリューム内のファイルの REST API の例

ボリューム内のファイルの操作の制限