DBFSルートの操作に関する推奨事項

Databricks では、DBFSルート ディレクトリを一部のワークスペース アクションの 既定の場所 として使用します。 Databricks では、運用データや機密情報を DBFSルートに格納しないことをお勧めします。 この記事では、DBFSルート上の機密データが誤って公開されないようにするための推奨事項に焦点を当てます。

Databricks は、内部 DBFS と呼ばれる顧客所有のクラウド ストレージにデータと構成を保持するための個別のプライベート ストレージの場所を構成します。 この場所はユーザーに公開されません。

DBFSルートにデータを保存しないようにユーザーを教育する

DBFSルートはワークスペース内のすべてのユーザーがアクセスできるため、すべてのユーザーがここに格納されているすべてのデータにアクセスできます。 機密データの保存にこの場所を使用しないようにユーザーに指示することが重要です。 Databricks 上の Hive metastore 内のマネージ テーブルの既定の場所は DBFSルートです。マネージ テーブルを作成するエンド ユーザーが DBFSルートに書き込めないようにするには、 Hive metastoreでデータベースを作成するときに外部ストレージ上の場所を宣言します。

Unity Catalog マネージド テーブルでは、既定のセキュリティで保護された格納場所が使用されます。 Databricks では、マネージ テーブルに Unity Catalog を使用することをお勧めします。

監査ログを使用してアクティビティを監視する

DBFS 監査イベントの詳細については、 「DBFS イベント」を参照してください。

Databricks では、DBFSルート バケットの S3 オブジェクトレベルのログ記録を有効に して、問題をより迅速に調査できるようにすることをお勧めします。 S3 オブジェクトレベルのログ記録を有効にすると、AWS の使用コストが増加する可能性があることに注意してください。

顧客管理キーを使用してDBFSルートデータを暗号化する

カスタマー管理のキーを使用して DBFS ルート データを暗号化できます。 「顧客管理の暗号化キー」を参照してください。