DBFSとは何ですか?

DBFSという用語は、プラットフォームの 2 つの部分を説明するために使用されます。

  • DBFSルート

  • DBFSマウント

DBFSルートまたはDBFSマウントを使用してデータを保存およびアクセスすることは非推奨のパターンであり、 Databricksでは推奨されていません。 ファイルの操作に関する推奨事項については、「Databricks でのファイルの操作」を参照してください。

Databricks ファイル システムとは何ですか?

DBFSという用語は Databricks File System から来ており、Databricks がクラウドベースのストレージとやり取りするために使用する分散ファイル システムを表します。

DBFS に関連する基盤となるテクノロジーは、依然として Databricks プラットフォームの一部です。 たとえば、dbfs:/ はUnity Catalogボリュームと対話する場合のオプションのスキームです。

DBFSに関する過去および現在の警告と注意事項は、DBFS ルートまたはDBFSマウントにのみ適用されます。

DBFSはUnity Catalogとどのように連携するのか

Databricks では、すべてのデータへのアクセスを管理するために Unity Catalog を使用することを推奨しています。

Unity Catalog は、外部ロケーション、ストレージ認証情報、ボリュームの概念を追加し、組織がクラウド オブジェクト ストレージ内のデータへの最小限の権限アクセスを提供できるようにします。

一部のセキュリティ構成では、主に Unity Catalog への移行を完了した組織、または部分的に Unity Catalog に移行した組織を対象に、Unity Catalog で管理されるリソースと DBFS への直接アクセスが提供されます。 DBFS および Unity Catalog のベストプラクティスを参照してください。

DBFSルートとは

DBFSルートは、ワークスペースの作成中にプロビジョニングされるストレージの場所であり、 Databricksワークスペースを含むクラウド上でのアカウントです。 Databricks Filesystemルート構成とデプロイの詳細については、「 ワークスペース デプロイ用のS3バケットの作成」を参照してください。

Databricks 、本番運用データ、ライブラリ、またはスクリプトをDBFSルートに保存することはお勧めしません。 DBFSルートの使用に関する推奨事項を参照してください。

オブジェクトストレージをマウントする

注:

DBFS マウントは非推奨です。 Databricks Unity Catalogボリュームの使用を推奨しています。 Unity Catalogボリュームとは何ですか?を参照してください。

オブジェクトストレージを DBFS にマウントすると、オブジェクトストレージ内のオブジェクトに、ローカル ファイル システム上にあるかのようにアクセスできるようになります。 マウントは、ストレージにアクセスするために必要な Hadoop 構成を保存します。 詳細については、 Databricksへのクラウドオブジェクトストレージのマウント」を参照してください。