高レベルのアーキテクチャ

この記事では、エンタープライズアーキテクチャを含む Databricks アーキテクチャの概要を Google クラウドと組み合わせて説明します。

Databricksオブジェクト

Databricks アカウントは 、組織全体で Databricks を管理するために使用する最上位レベルの構成要素です。アカウントレベルでは、次のものを管理します。

ID とアクセス: ユーザー、グループ、サービスプリンシパル、 SCIMプロビジョニング、およびSSO構成。
ワークスペース管理: 複数のリージョンにわたるワークスペースを作成、更新、削除します。
Unity Catalogメタストア管理: メタストアを作成してワークスペースにアタッチします。
使用状況管理: 課金、コンプライアンス、ポリシー。

アカウントには複数のワークスペースと Unity Catalog メタストアを含めることができます。

ワークスペース は、ユーザーが取り込み、インタラクティブな探索、スケジュールされたジョブ、 MLトレーニングなどのワークロードを実行できるコラボレーション環境です。
Unity Catalog メタストアは、 テーブルや ML モデルなどのデータ資産の中心的なガバナンスシステムです。メタストア内のデータは、次の 3 レベルの名前空間で整理されます。

<catalog-name>.<schema-name>.<object-name>

メタストアはワークスペースにアタッチされます。1 つのメタストアを同じリージョン内の複数のDatabricksワークスペースにリンクし、各ワークスペースに同じデータビューを与えることができます。データアクセス制御は、リンクされたすべてのワークスペースにわたって管理できます。

図: Databricks オブジェクト階層

ワークスペースアーキテクチャ

Databricks は、 コントロールプレーン と コンピュートプレーン から動作します。

コントロールプレーンに は、Databricks アカウントで Databricks が管理するバックエンドサービスが含まれます。コントロールプレーンは、クラウドアカウントではなく、Databricks アカウントにあります。Web アプリケーションはコントロールプレーンにあります。
コンピュートプレーン は、データが処理される場所です。使用するコンピュートに応じた2 種類のコンピュートプレーンが存在します。
- サーバレスコンピュートの場合、サーバレスコンピュートリソースはDatabricksアカウントの サーバレスコンピュートプレーン で実行されます。
- クラシック Databricks コンピュートの場合、コンピュートリソースは Google Cloud リソース内の クラシックコンピュートプレーン 内にあります。これは、Google Cloud リソースとそのリソース内のネットワークを指します。
classic コンピュートとサーバレスコンピュートの詳細については、「コンピュート」を参照してください。

クラシックなワークスペースアーキテクチャ

Classic Databricksワークスペースには 、ワークスペースストレージバケット と呼ばれる 3 つの関連ストレージバケットがあります。ワークスペースストレージバケットは、Google クラウドアカウント内にあります。

次の図は、クラシックワークスペースの一般的な Databricks アーキテクチャを示しています。

図：GCP向けDatabricksアーキテクチャ

サーバレスワークスペースアーキテクチャ

サーバレスワークスペースのワークスペースストレージは、ワークスペースのデフォルトストレージに保存されます。クラウドストレージアカウントに接続してデータにアクセスすることもできます。次の図は、サーバレスワークスペースの一般的なアーキテクチャを示しています。

図: Databricksサーバレスワークスペースアーキテクチャ

サーバレスコンピュートプレーン

サーバレスコンピュートプレーンで、Databricks アカウント内のコンピュートレイヤーでコンピュートリソースDatabricks実行します。Databricks は、ワークスペースの従来のコンピュートプレーンと同じ Google Cloud リージョンにサーバレスコンピュートプレーンを作成します。このリージョンは、ワークスペースの作成時に選択します。

サーバーレスコンピュートプレーン内の顧客データを保護するために、サーバーレスコンピュートはワークスペースのネットワーク境界内で実行され、さまざまなセキュリティレイヤーを使用して、同じ顧客のクラスター間で異なるDatabricksワークスペースと追加のネットワーク制御を分離します。

サーバレスコンピュートプレーンでのネットワークの詳細については、サーバレスコンピュートプレーンネットワークを参照してください。

クラシックコンピュートプレーン

従来のコンピュートプレーンでは、Google Cloud アカウントでDatabricksコンピュートリソースを実行します。新しいコンピュートリソースは、各ワークスペースの仮想ネットワーク内の顧客の Google Cloud アカウント内に作成されます。

従来のコンピュートプレーンは、各顧客自身のGoogle Cloudアカウントで実行されるため、自然に分離されています。クラシックコンピュートプレーンでのネットワークの詳細については、「クラシックコンピュートプレーンネットワーク」を参照してください。

リージョンのサポートについては、「 Databricks のクラウドとリージョン」を参照してください。

ワークスペースストレージ

ワークスペースのストレージは、ワークスペースのタイプに応じて処理されます。ワークスペースの種類の詳細については、「ワークスペースの作成」を参照してください。

ワークスペースストレージには、ワークスペースファイルシステムデータとワークスペースシステムデータの 2 つのカテゴリのデータが含まれています。どちらも、独自のデータオブジェクト (Unity Catalog テーブルやボリュームなど) とは別です。

ワークスペースファイルシステムデータ

ワークスペースファイルシステムには、ユーザーが Databricks UI を通じて作成および管理する資産が格納されます。これらには次のものが含まれます。

ノートブック
SQLクエリとダッシュボード
アラート
Repos ( Gitに添付されたフォルダー)
ライブラリ ( .whl 、 .jar )
Pythonファイル、YAML設定ファイル、その他の小さなファイル

ワークスペースファイルの詳細については、「ワークスペースファイルとは何ですか?」を参照してください。。ワークスペースアセットの完全なリストについては、「ワークスペースオブジェクトの概要」を参照してください。

ワークスペースシステムデータ

すべての Databricks ワークスペースには、Databricks 機能によって内部的に生成されたシステムデータも保存されます。このデータはメモリやデータベースに保存するには大きすぎるか、単一のコンピュートリソースの有効期間を超えて保持する必要があります。ワークスペースシステムデータの例には次のようなものがあります。

SQLクエリ結果とキャッシュされたクエリ結果
ジョブ実行結果
ノートブックの改訂
可観測性に使用されるSQLクエリプラン
クラスターログ

各ワークスペースタイプに対するワークスペースストレージの構成方法の詳細については、以下のセクションを参照してください。

サーバレスワークスペース

サーバーレスワークスペースは、内部ワークスペースシステムデータおよびUnity Catalogデータ資産のフルマネージドストレージ場所である、デフォルトストレージを使用します。サーバーレスワークスペースは、独自のカタログ、テーブル、その他のデータ資産を保存するクラウドストレージの場所に接続する機能もサポートしています。 Databricks のデフォルトストレージを参照してください。

クラシックワークスペース

重要

クラウドアカウント内のワークスペースストレージを削除または変更しないでください。Databricks ワークスペースが正しく動作するには、コントロールプレーンデータベースとワークスペースストレージの両方に依存します。ワークスペースストレージを削除すると、ワークスペースを復元することはできません。

従来のワークスペースでは、ワークスペースシステムデータはDBFSとは異なります。。どちらもクラシックワークスペースの同じクラウドストレージバケットに存在する可能性がありますが、目的は異なります。DBFSルートはユーザーがアクセスできるファイルシステムですが、ワークスペースシステムデータはDatabricks機能によって内部的に使用されます。

クラシックワークスペースを作成すると、 Databricksワークスペースストレージバケットとして使用する 3 つのバケットを Google クラウドアカウントに作成します。

1 つのワークスペースストレージバケットには、Databricks 機能によって生成される内部データである ワークスペースシステムデータ が格納されます。
もう 1 つのワークスペースストレージバケットは、ワークスペースの DBFS のルートストレージです。これはレガシーであり、ワークスペースで無効になっている可能性があります。DBFS (Databricks ファイルシステム) は、 dbfs:/名前空間でアクセスできる Databricks 環境の分散ファイルシステムです。DBFSルートとDBFSマウントは両方ともdbfs:/名前空間にあります。 DBFSルートまたはDBFSマウントを使用してデータを保存およびアクセスすることは非推奨のパターンであり、 Databricksでは推奨されていません。詳細については、 DBFSとは何ですか?」を参照してください。。
ワークスペースが自動的にUnity Catalogを有効にしている場合、3 番目のワークスペースストレージバケットには、デフォルト Unity Catalog ワークスペースカタログ が含まれます。ワークスペース内のすべてのユーザーは、このカタログのデフォルトスキーマでアセットを作成できます。「 Unity Catalog の概要」を参照してください。

ワークスペースストレージバケットへのアクセスを制限するには、「プロジェクト内のワークスペースの GCS バケットを保護する」を参照してください。

Databricksオブジェクト​

ワークスペースアーキテクチャ​

クラシックなワークスペースアーキテクチャ​

サーバレスワークスペースアーキテクチャ​

サーバレス コンピュート プレーン​

クラシックコンピュートプレーン​

ワークスペースストレージ​

ワークスペースファイルシステムデータ​

ワークスペースシステムデータ​

サーバレスワークスペース​

クラシックワークスペース​