Databricksのデフォルトストレージ
このページでは、Databricks のデフォルト ストレージの仕組みと、それを使用するカタログとデータ オブジェクトを作成する方法について説明します。
デフォルトストレージとは何ですか?
もちろんストレージは、 Databricksアカウントにすぐに使用できるストレージを提供するフルマネージド オブジェクト ストレージ プラットフォームです。 一部の Databricks 機能では、外部ストレージの代わりにデフォルトのストレージを使用します。
サーバレス ワークスペースは、内部ストレージとワークスペース ストレージ、およびワークスペースで作成される暫定カタログに、暫定ストレージを使用します。 サーバレス ワークスペースでは、自社ストレージまたは独自のクラウド オブジェクト ストレージに追加のカタログを作成できます。
クラシック ワークスペースとサーバレス ワークスペースの両方で、当然ストレージは、コントロール プレーンのメタデータ、派生データ、モデル、その他のアーティファクトなどを保存する機能によって使用されます。 たとえば、クリーンルーム、データ分類、異常検知、エージェント ブリックはすべてワークスペースの勝手なストレージを使用します。 各機能が当然ストレージに保存する内容の詳細については、個々の機能のドキュメントを参照してください。
必要条件
-
デフォルトストレージ上でのカタログ作成は、サーバレスワークスペース(パブリックプレビュー)のみで利用可能です。
-
デフォルトでは、デフォルトのストレージを使用するカタログには、それが作成されたワークスペースからのみアクセスできます。従来のワークスペースを含む他のワークスペースへのアクセスを許可できますが、カタログ内のデータにアクセスするにはサーバレス コンピュートを使用する必要があります。 「特定のワークスペースへのカタログ アクセスを制限する」を参照してください。
-
デフォルトのストレージでカタログを作成するには、
CREATE CATALOG権限が必要です。 Unity Catalog の特権とセキュリティ保護可能なオブジェクトを参照してください。 -
クライアントがDatabricks ODBCドライバーを使用してファイアウォールの背後から デフォルト ストレージ カタログにアクセスする場合は、 Databricks地域ストレージ ゲートウェイへのアクセスを許可するようにファイアウォールを構成する必要があります。 デフォルト ストレージの IP およびドメイン名の詳細については、 「Databricks サービスおよびアセットの IP アドレスとドメイン」を参照してください。
新しいカタログを作成する
以下のステップを実行して、デフォルト・ストレージを使用して新規カタログを作成します。
- サイドバー
カタログ をクリックします。カタログエクスプローラが表示されます。
- [ カタログを作成 ] をクリックします。 新しいカタログの作成 ダイアログが表示されます。
- アカウント内で一意の カタログ名 を指定します。
- デフォルトストレージを使用する オプションを選択します。
- 作成 をクリックします。
サーバレス ワークスペースでは、次の SQL コマンドを使用して、デフォルト ストレージに新しいカタログを作成することもできます。 カタログの場所を指定する必要はありません。
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]
デフォルトのストレージで作業する
デフォルトストレージとのすべてのインタラクションには、サーバレス、Unity Catalog有効化コンピュートが必要です。
デフォルト ストレージ に支えられたリソースは、 Unity Catalogの他のオブジェクトと同じ特権モデルを使用します。 データ・オブジェクトを作成、表示、問合せまたは変更するための十分な権限が必要です。 Unity Catalog の特権とセキュリティ保護可能なオブジェクトを参照してください。
デフォルトストレージを操作するには、デフォルトストレージに支えられたマネージドテーブルとマネージドボリュームを作成し、操作します。Delta LakeとApache IcebergにおけるDatabricksのUnity CatalogマネージドテーブルとUnity Catalogボリュームとは を参照してください。
Catalog Explorer、ノートブック、 SQL エディター、およびダッシュボードを使用して、デフォルトストレージに保存されているデータオブジェクトを操作できます。
タスクの例
以下は、デフォルトのストレージで完了できるタスクの例です。
- ローカル・ファイルを管理対象ボリュームにアップロードするか、マネージド・テーブルを作成します。 Unity Catalog ボリュームへのファイルのアップロードとファイルのアップロードを使用してテーブルを作成または変更するを参照してください。
- ノートブックでデータをクエリします。チュートリアル: ノートブックからのデータのクエリと視覚化を参照してください。
- ダッシュボードを作成します。 ダッシュボードの作成を参照してください。
- SQLを使用してデータをクエリし、SQLクエリをスケジュールします。新しい SQL エディターでのクエリの記述とデータの探索を参照してください。
- 外部ボリュームからマネージドテーブルにデータを取り込みます。 Unity CatalogとAuto Loaderの使用を参照してください。
- Fivetranを使用してマネージドテーブルにデータを取り込みます。Fivetranへの接続を参照してください。
- BIツールを使用して、マネージドテーブルを探索します。 Tableau と Databricksへの接続 および Power BI と Databricks の接続を参照してください。
- サーバレス ノートブックを実行します。 ノートブック向けサーバレス コンピュートを参照してください。
- サーバレス ジョブを実行します。ワークフロー向けサーバレス コンピュートによるLakeflowジョブの実行 を参照してください。
- モデルサービング エンドポイントを実行します。 Mosaic AI Model Servingを使用したモデルのデプロイを参照してください。
- 実行サーバレスLakeflow Spark宣言型パイプライン。 「サーバレス パイプラインの構成」を参照してください。
- テーブルで予測的最適化を使用します。 Unity Catalog マネージドテーブルの予測的最適化を参照してください。
制限
次の制限が適用されます:
-
クラシック コンピュート (サーバレス以外のコンピュート) は、デフォルト ストレージ内のデータ資産と対話できません。
-
Delta Sharing は、オープンまたは Databricksの受信者とのテーブルの共有をサポートしており、受信者は従来のコンピュートを使用して共有テーブルにアクセスできます (ベータ版)。 アカウントコンソールで [Delta Sharing for デフォルト ストレージ – 拡張アクセス ] 機能を有効にします。
- 他のすべての共有可能な資産は、同じクラウド上の Databricks 受信者とのみ Delta 共有できます。受信者はサーバレス コンピュートを使用する必要があります。
-
パーティション化が有効になっているテーブルは、 Delta 共有できません。
-
外部の Iceberg および Delta クライアントは、デフォルト ストレージ上の UC テーブルの基礎となるメタデータ、マニフェスト リスト、およびデータ ファイルに直接アクセスできません (FileIO アクセスはサポートされていません)。ただし、Power BI や Tableau などの BI ツールは、ODBC および JDBC ドライバーを使用して、デフォルトのストレージ上の Unity Catalog テーブルにアクセスできます。外部クライアントは、Files API を使用して、デフォルトのストレージ上の Unity Catalog ボリュームにアクセスすることもできます。
-
ただし、ストレージは、より大きなデータセットに対するクエリに対する ドライバーのクラウド フェッチ パフォーマンスの最適化を含む、 および ドライバーを介した外部アクセスをサポートしています。DatabricksODBCJDBCODBCただし、フロントエンド PrivateLink が有効になっているワークスペースからまだストレージ テーブルにアクセスしている場合、100 MB を超えるODBCクライアント クエリは失敗します。これは、まだストレージ テーブルのクラウド フェッチ最適化が現在フロントエンド PrivateLink をサポートしていないためです。