メインコンテンツまでスキップ

Unity Catalog ボリュームにファイルをアップロードする

構造化データ、半構造化データ、非構造化データなど、あらゆる形式のファイルをボリュームにアップロードできます。Databricks UI を通じてアップロードされるファイルは、ファイルあたり 5 GB を超えることはできません。5 GB を超えるファイルをアップロードするには、Python 用の Databricks SDK を使用します。このページでは、ボリュームにファイルをアップロードするためにサポートされているすべての方法 (Databricks UI、Databricks SDK、および Databricks CLI) の概要を示します。

ボリューム内のファイルのアップロードと管理の詳細については、 Unity Catalogボリューム内のファイルの操作」を参照してください。

前提条件

ボリュームにアップロードする前に、次のものがあることを確認してください。

  • Unity Catalog が有効になっているワークスペース
  • WRITE VOLUME ターゲットボリューム
  • USE SCHEMA 親スキーマ上
  • USE CATALOG 親カタログ

Databricks UI を使用してアップロードする

Databricks UI を使用してファイルをボリュームにアップロードするには、次のステップに従います。

  1. サイドバーで、 [新規] をクリックし、 [データを追加またはアップロード] を クリックします。
  2. 「ボリュームにファイルをアップロード」 をクリックします。
  3. [ファイル] の下で、 [参照] をクリックするか、ファイルをドロップ ゾーンにドラッグ アンド ドロップします。
  4. [宛先ボリューム] の下で、ボリュームまたはディレクトリを選択するか、ボリューム パスを貼り付けます。

ターゲット スキーマにボリュームが存在しない場合は、 [ボリュームの作成] をクリックしてボリュームを作成できます。

ターゲットボリューム内に新しいディレクトリを作成することもできます。

Databricks SDKを使用してアップロードする

次のコード スニペットは、Databricks SDK for Python を使用してファイルをアップロードする方法を示しています。

Python
# --- Uploading a file to a volume ---
# Upload method 1 (recommended when your data is in a local file path)
w.files.upload_from(volume_file_path, upload_file_path, overwrite=True)


# Upload method 2 (recommended when your data is in-memory or not a local file)
with open(upload_file_path, "rb") as f:
w.files.upload(volume_file_path, io.BytesIO(f.read()), overwrite=True)

Databricks CLI を使用してアップロードする

次の例では、ローカル ファイル システム パスからsquirrels.csvという名前のファイルを、 my-volumeという名前のボリューム内のsquirrel-dataという名前のディレクトリにアップロードします。ファイルが宛先にすでに存在する場合は上書きされます。

databricks fs cp /Users/<username>/squirrels.csv
/Volumes/<catalog>/<schema>/my-volume/squirrel-data --overwrite