Unity Catalog ボリュームにファイルをアップロードする
構造化データ、半構造化データ、非構造化データなど、あらゆる形式のファイルをボリュームにアップロードできます。Databricks UI を通じてアップロードされるファイルは、ファイルあたり 5 GB を超えることはできません。5 GB を超えるファイルをアップロードするには、Python 用の Databricks SDK を使用します。このページでは、ボリュームにファイルをアップロードするためにサポートされているすべての方法 (Databricks UI、Databricks SDK、および Databricks CLI) の概要を示します。
ボリューム内のファイルのアップロードと管理の詳細については、 Unity Catalogボリューム内のファイルの操作」を参照してください。
前提条件
ボリュームにアップロードする前に、次のものがあることを確認してください。
- Unity Catalog が有効になっているワークスペース
WRITE VOLUMEターゲットボリュームUSE SCHEMA親スキーマ上USE CATALOG親カタログ
Databricks UI を使用してアップロードする
Databricks UI を使用してファイルをボリュームにアップロードするには、次のステップに従います。
- サイドバーで、 [新規] をクリックし、 [データを追加またはアップロード] を クリックします。
- 「ボリュームにファイルをアップロード」 をクリックします。
- [ファイル] の下で、 [参照] をクリックするか、ファイルをドロップ ゾーンにドラッグ アンド ドロップします。
- [宛先ボリューム] の下で、ボリュームまたはディレクトリを選択するか、ボリューム パスを貼り付けます。
ターゲット スキーマにボリュームが存在しない場合は、 [ボリュームの作成] をクリックしてボリュームを作成できます。
ターゲットボリューム内に新しいディレクトリを作成することもできます。
Databricks SDKを使用してアップロードする
次のコード スニペットは、Databricks SDK for Python を使用してファイルをアップロードする方法を示しています。
Python
# --- Uploading a file to a volume ---
# Upload method 1 (recommended when your data is in a local file path)
w.files.upload_from(volume_file_path, upload_file_path, overwrite=True)
# Upload method 2 (recommended when your data is in-memory or not a local file)
with open(upload_file_path, "rb") as f:
w.files.upload(volume_file_path, io.BytesIO(f.read()), overwrite=True)
Databricks CLI を使用してアップロードする
次の例では、ローカル ファイル システム パスからsquirrels.csvという名前のファイルを、 my-volumeという名前のボリューム内のsquirrel-dataという名前のディレクトリにアップロードします。ファイルが宛先にすでに存在する場合は上書きされます。
databricks fs cp /Users/<username>/squirrels.csv
/Volumes/<catalog>/<schema>/my-volume/squirrel-data --overwrite