Databricks でのファイルの操作

Databricks には、次の場所にあるファイルを操作するための複数のユーティリティと API があります。

Unity Catalog ボリューム
ワークスペースファイル
クラウドオブジェクトストレージ
DBFS マウントと DBFSルート
クラスターのドライバーノードにアタッチされたエフェメラルストレージ

この記事では、次のツールでこれらの場所にあるファイルを操作する例を示します。

Apache Spark
Spark SQL と Databricks SQL
Databricks ファイルシステムユーティリティ (dbutils.fs または %fs)
Databricks CLI
Databricks REST API
Bash シェルコマンド (%sh)
ノートブックスコープのライブラリは、 %pip
pandas
OSS Python ファイル管理および処理ユーティリティ

重要

Databricks の一部の操作 (特に Java または Scala ライブラリを使用する操作) は、次のような JVM プロセスとして実行されます。

Spark 構成での --jars を使用した JAR ファイル依存関係の指定
Scalaノートブックでのcatまたはjava.io.Fileの呼び出し
カスタムデータソース ( spark.read.format("com.mycompany.datasource")
JavaのFileInputStreamを使用してファイルをロードするライブラリまたは Paths.get()

これらの操作では、標準のファイルパス ( /Volumes/my-catalog/my-schema/my-volume/my-file.csvなど) を使用した Unity Catalog ボリュームまたはワークスペースファイルの読み取りまたは書き込みはサポートされていません。JAR依存関係またはJVMベースのライブラリからボリュームファイルまたはワークスペースファイルにアクセスする必要がある場合は、最初にPythonまたは%shコマンド(%sh mv.など)を使用してファイルをコンピュートローカルストレージにコピーします。JVM を使用する %fs および dbutils.fs は使用しないでください。既にローカルにコピーされたファイルにアクセスするには、Python shutil などの言語固有のコマンドを使用するか、 %sh コマンドを使用します。クラスターの開始中にファイルが存在する必要がある場合は、最初にinitスクリプトを使用してファイルを移動します。「initスクリプトとは」を参照してください。

データにアクセスするためにURIスキームを提供する必要がありますか?

Databricks のデータアクセスパスは、次のいずれかの標準に従います。

URI スタイルのパス には、URI スキームが含まれます。 Databricks ネイティブのデータアクセスソリューションの場合、URI スキームはほとんどのユースケースで省略可能です。クラウド・オブジェクト・ストレージ内のデータに直接アクセスする場合は、ストレージ・タイプに適した URI スキームを指定する必要があります。
POSIX スタイルのパス は、ドライバーのルート (/) を基準にしたデータアクセスを提供します。 POSIX スタイルのパスはスキームを必要としません。 Unity Catalog ボリュームまたは DBFS マウントを使用して、クラウドオブジェクトストレージ内のデータへの POSIX スタイルのアクセスを提供できます。多くの ML フレームワークやその他の OSS Python モジュールには FUSE が必要であり、POSIX スタイルのパスのみを使用できます。

注記

FUSE データ・アクセスを必要とするファイル操作では、URI を使用してクラウド・オブジェクト・ストレージに直接アクセスすることはできません。 Databricks では、 Unity Catalog ボリュームを使用して FUSE のこれらの場所へのアクセスを設定することをお勧めします。

専用アクセス・モード (旧シングル・ユーザー・アクセス・モード) およびDatabricks Runtime 14.3 以降で構成されたコンピュートでは、Scala Unity CatalogScalaは、から発生するサブプロセス (Scala コマンド・など) を除き、・ボリュームおよびワークスペース・ファイルの FUSE"cat /Volumes/path/to/file".!! をサポートします。

Unity Catalog ボリューム内のファイルを操作する

Databricks では、Unity Catalog ボリュームを使用して、クラウドオブジェクトストレージに格納されている非表形式データファイルへのアクセスを構成することをお勧めします。詳細な手順やベストプラクティスなど、ボリューム内のファイルの管理に関する完全なドキュメントについては、「 Unity Catalog ボリューム内のファイルの操作」を参照してください。

次の例は、さまざまなツールとインターフェイスを使用した一般的な操作を示しています。

ツール	例
Apache Spark	`spark.read.format("json").load("/Volumes/my_catalog/my_schema/my_volume/data.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM csv.`/Volumes/my_catalog/my_schema/my_volume/data.csv`; `LIST '/Volumes/my_catalog/my_schema/my_volume/';`
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("/Volumes/my_catalog/my_schema/my_volume/")` `%fs ls /Volumes/my_catalog/my_schema/my_volume/`
Databricks CLI	`databricks fs cp /path/to/local/file dbfs:/Volumes/my_catalog/my_schema/my_volume/`
Databricks REST API	`POST https://<databricks-instance>/api/2.1/jobs/create` `{"name": "A multitask job", "tasks": [{..."libraries": [{"jar": "/Volumes/dev/environment/libraries/logging/Logging.jar"}],},...]}`
Bash シェルコマンド	`%sh curl http://<address>/text.zip -o /Volumes/my_catalog/my_schema/my_volume/tmp/text.zip`
ライブラリのインストール	`%pip install /Volumes/my_catalog/my_schema/my_volume/my_library.whl`
Pandas	`df = pd.read_csv('/Volumes/my_catalog/my_schema/my_volume/data.csv')`
OSSのPythonの	`os.listdir('/Volumes/my_catalog/my_schema/my_volume/path/to/directory')`

ボリュームの制限と回避策については、ボリューム内のファイルの操作の制限を参照してください。

ワークスペースファイルの操作

Databricksワークスペースファイルは、ワークスペースストレージアカウントに保存される、ワークスペース内のファイルです。ワークスペースファイルを使用すると、ノートブック、ソースコードファイル、データファイル、その他のワークスペースアセットなどのファイルを保存したり、アクセスしたりできます。

重要

ワークスペースファイルにはサイズ制限があるため、Databricks では、主に開発とテスト用に小さなデータファイルのみをここに保存することをお勧めします。他のファイルタイプを保存する場所に関する推奨事項については、「ファイルタイプ」を参照してください。

ツール	例
Apache Spark	`spark.read.format("json").load("file:/Workspace/Users/<user-folder>/data.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM json.`file:/Workspace/Users/<user-folder>/file.json`;
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("file:/Workspace/Users/<user-folder>/")` `%fs ls file:/Workspace/Users/<user-folder>/`
Databricks CLI	`databricks workspace list`
Databricks REST API	`POST https://<databricks-instance>/api/2.0/workspace/delete` `{"path": "/Workspace/Shared/code.py", "recursive": "false"}`
Bash シェルコマンド	`%sh curl http://<address>/text.zip -o /Workspace/Users/<user-folder>/text.zip`
ライブラリのインストール	`%pip install /Workspace/Users/<user-folder>/my_library.whl`
Pandas	`df = pd.read_csv('/Workspace/Users/<user-folder>/data.csv')`
OSSのPythonの	`os.listdir('/Workspace/Users/<user-folder>/path/to/directory')`

注記

file:/ スキーマは、 Databricks ユーティリティ、 Apache Spark、または SQLを使用する場合に必要です。

DBFSルートとマウントが無効になっているワークスペースでは、 dbfs:/Workspace使用してDatabricksユーティリティでワークスペースファイルにアクセスすることもできます。これには、Databricks Runtime 13.3 LTS 以上が必要です。DBFSルートへのアクセスを無効にし、既存のDatabricksワークスペースにマウントする」を参照してください。

ワークスペースファイルの操作に関する制限事項については、制限事項を参照してください。

削除されたワークスペースファイルはどこに行きますか?

ワークスペースファイルを削除すると、そのファイルはごみ箱に送られます。 UI を使用して、ごみ箱からファイルを回復または完全に削除できます。

オブジェクトの削除を参照してください。

クラウドオブジェクトストレージ内のファイルの操作

Databricks では、Unity Catalog ボリュームを使用して、クラウドオブジェクトストレージ内のファイルへの安全なアクセスを構成することをお勧めします。URI を使用してクラウド・オブジェクト・ストレージ内のデータに直接アクセスすることを選択した場合は、権限を構成する必要があります。管理ボリュームと外部ボリュームを参照してください。

次の例では、URI を使用してクラウド・オブジェクト・ストレージ内のデータにアクセスします。

ツール	例
Apache Spark	`spark.read.format("json").load("s3://<bucket>/path/file.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM csv.`s3://<bucket>/path/file.json`; `LIST 's3://<bucket>/path';`
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("s3://<bucket>/path/")` `%fs ls s3://<bucket>/path/`
Databricks CLI	サポートされていない
Databricks REST API	サポートされていない
Bash シェルコマンド	サポートされていない
ライブラリのインストール	`%pip install s3://bucket-name/path/to/library.whl`
Pandas	サポートされていない
OSSのPythonの	サポートされていない

注記

クラウドオブジェクトストレージは、クライアント側の暗号化が有効になっているAmazon S3マウントをサポートしていません。

DBFSマウントとDBFSルートでファイルを操作する

重要

DBFSルートとDBFSマウントは両方とも非推奨であり、 Databricksでは推奨されていません。新しいアカウントはこれらの機能にアクセスできない状態でプロビジョニングされます。Databricks 、代わりにUnity Catalogボリューム、外部ロケーション、またはワークスペースファイルを使用することをお勧めします。

ツール	例
Apache Spark	`spark.read.format("json").load("/mnt/path/to/data.json").show()`
Spark SQL と Databricks SQL	SELECT * FROM json.`/mnt/path/to/data.json`;
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("/mnt/path")` `%fs ls /mnt/path`
Databricks CLI	`databricks fs cp dbfs:/mnt/path/to/remote/file /path/to/local/file`
Databricks REST API	`POST https://<host>/api/2.0/dbfs/delete --data '{ "path": "/tmp/HelloWorld.txt" }'`
Bash シェルコマンド	`%sh curl http://<address>/text.zip > /dbfs/mnt/tmp/text.zip`
ライブラリのインストール	`%pip install /dbfs/mnt/path/to/my_library.whl`
Pandas	`df = pd.read_csv('/dbfs/mnt/path/to/data.csv')`
OSSのPythonの	`os.listdir('/dbfs/mnt/path/to/directory')`

注記

Databricks CLI を使用する場合は、 dbfs:/ スキームが必要です。

ドライバーノードにアタッチされたエフェメラルストレージ内のファイルの操作

ドライバーノードにアタッチされたエフェメラルストレージは、組み込みPOSIXベースのパスアクセスを備えたブロックストレージです。この場所に格納されているデータは、クラスターが終了または再起動すると消えます。

ツール	例
Apache Spark	サポートされていない
Spark SQL と Databricks SQL	サポートされていない
Databricks ファイルシステムユーティリティ	`dbutils.fs.ls("file:/path")` `%fs ls file:/path`
Databricks CLI	サポートされていない
Databricks REST API	サポートされていない
Bash シェルコマンド	`%sh curl http://<address>/text.zip > /tmp/text.zip`
ライブラリのインストール	サポートされていない
Pandas	`df = pd.read_csv('/path/to/data.csv')`
OSSのPythonの	`os.listdir('/path/to/directory')`

注記

Databricks ユーティリティを使用する場合は、 file:/ スキーマが必要です。

エフェメラルストレージからボリュームへのデータの移動

Apache Spark を使用して、一時ストレージにダウンロードまたは保存されたデータにアクセスすることができます。エフェメラルストレージはドライバーにアタッチされ、Spark は分散処理エンジンであるため、すべての操作がここでデータに直接アクセスできるわけではありません。ドライバーファイルシステムから Unity Catalog ボリュームにデータを移動する必要があるとします。その場合は、次の例のように、マジックコマンドまたは Databricks ユーティリティを使用してファイルをコピーできます。

Python
dbutils.fs.cp ("file:/<path>", "/Volumes/<catalog>/<schema>/<volume>/<path>")

Bash
%sh cp /<path> /Volumes/<catalog>/<schema>/<volume>/<path>

Bash
%fs cp file:/<path> /Volumes/<catalog>/<schema>/<volume>/<path>

追加のリソース

ローカルファイルのアップロードまたはインターネットファイルの Databricksへのダウンロードに関する情報については、「Databricksへのファイルのアップロード」を参照してください。

データにアクセスするためにURIスキームを提供する必要がありますか?​

Unity Catalog ボリューム内のファイルを操作する​

ワークスペース ファイルの操作​

削除されたワークスペース ファイルはどこに行きますか?​

クラウドオブジェクトストレージ内のファイルの操作​

DBFSマウントとDBFSルートでファイルを操作する​

ドライバーノードにアタッチされたエフェメラルストレージ内のファイルの操作​

エフェメラルストレージからボリュームへのデータの移動​

追加のリソース​