高レベルのアーキテクチャ

この記事では、AWSと組み合わせたエンタープライズアーキテクチャを含むDatabricksアーキテクチャの概要を説明します。

Databricksオブジェクト

Databricks アカウントは 、組織全体で Databricks を管理するために使用する最上位レベルの構成要素です。アカウントレベルでは、次のものを管理します。

ID とアクセス: ユーザー、グループ、サービスプリンシパル、 SCIMプロビジョニング、およびSSO構成。
ワークスペース管理: 複数のリージョンにわたるワークスペースを作成、更新、削除します。
Unity Catalogメタストア管理: メタストアを作成してワークスペースにアタッチします。
使用状況管理: 課金、コンプライアンス、ポリシー。

アカウントには複数のワークスペースと Unity Catalog メタストアを含めることができます。

ワークスペース は、ユーザーが取り込み、インタラクティブな探索、スケジュールされたジョブ、 MLトレーニングなどのワークロードを実行できるコラボレーション環境です。
Unity Catalog メタストアは、 テーブルや ML モデルなどのデータ資産の中心的なガバナンスシステムです。メタストア内のデータは、次の 3 レベルの名前空間で整理されます。

<catalog-name>.<schema-name>.<object-name>

メタストアはワークスペースにアタッチされます。1 つのメタストアを同じリージョン内の複数のDatabricksワークスペースにリンクし、各ワークスペースに同じデータビューを与えることができます。データアクセス制御は、リンクされたすべてのワークスペースにわたって管理できます。

図: Databricks オブジェクト階層

ワークスペースアーキテクチャ

Databricks は、 コントロールプレーン と コンピュートプレーン から動作します。

コントロールプレーンに は、Databricks アカウントで Databricks が管理するバックエンドサービスが含まれます。コントロールプレーンは、クラウドアカウントではなく、Databricks アカウントにあります。Web アプリケーションはコントロールプレーンにあります。
コンピュートプレーン は、データが処理される場所です。使用するコンピュートに応じた2 種類のコンピュートプレーンが存在します。
- サーバレスコンピュートの場合、サーバレスコンピュートリソースはDatabricksアカウントの サーバレスコンピュートプレーン で実行されます。
- Databricksクラシックコンピュートの場合、コンピュートリソースは、クラシックAWS コンピュートプレーン と呼ばれるアカウントにあります。これは、AWS アカウント内のネットワークとそのリソースを指します。
classic コンピュートとサーバレスコンピュートの詳細については、「コンピュート」を参照してください。

クラシックなワークスペースアーキテクチャ

Classic Databricksワークスペースには 、ワークスペースストレージバケット と呼ばれる関連ストレージバケットがあります。ワークスペースストレージバケットは AWS アカウント内にあります。

次の図は、クラシックワークスペースの一般的な Databricks アーキテクチャを示しています。

図: Databricks アーキテクチャ

サーバレスワークスペースアーキテクチャ

サーバレスワークスペースのワークスペースストレージは、ワークスペースのデフォルトストレージに保存されます。クラウドストレージアカウントに接続してデータにアクセスすることもできます。次の図は、サーバレスワークスペースの一般的なアーキテクチャを示しています。

図: Databricks アーキテクチャ

サーバレスコンピュートプレーン

サーバレスコンピュートプレーンで、Databricks アカウント内のコンピュートレイヤーでコンピュートリソースDatabricks実行します。Databricksは、ワークスペースの従来のコンピュートプレーンと同じ AWS リージョンにサーバレスコンピュートプレーンを作成します。このリージョンは、ワークスペースの作成時に選択します。

サーバーレスコンピュートプレーン内の顧客データを保護するために、サーバーレスコンピュートはワークスペースのネットワーク境界内で実行され、さまざまなセキュリティレイヤーを使用して、同じ顧客のクラスター間で異なるDatabricksワークスペースと追加のネットワーク制御を分離します。

サーバレスコンピュートプレーンでのネットワークの詳細については、サーバレスコンピュートプレーンネットワークを参照してください。

クラシックコンピュートプレーン

従来のコンピュートプレーンでは、あなたのAWS アカウントでDatabricksコンピュートリソースを実行します。新しいコンピュートリソースは、各ワークスペースの仮想ネットワーク内の顧客の AWS アカウント内に作成されます。

従来のコンピュートプレーンは、各顧客自身の AWS アカウントで実行されるため、自然に分離されています。クラシックコンピュートプレーンでのネットワークの詳細については、「クラシックコンピュートプレーンネットワーク」を参照してください。

リージョンのサポートについては、「 Databricks のクラウドとリージョン」を参照してください。

ワークスペースストレージ

ワークスペースのストレージは、ワークスペースのタイプに応じて処理されます。ワークスペースの種類の詳細については、「ワークスペースの作成」を参照してください。

サーバレスワークスペース

サーバーレスワークスペースは、内部ワークスペースシステムデータおよびUnity Catalogデータ資産のフルマネージドストレージ場所である、当然ストレージを使用します。サーバーレスワークスペースは、独自のカタログ、テーブル、その他のデータ資産を保存するクラウドストレージの場所に接続する機能もサポートしています。 Databricks のデフォルトストレージを参照してください。

クラシックワークスペース

クラシックワークスペースでは、ワークスペースストレージバケットとして使用するS3バケットとプレフィックスを指定する必要があります。この S3 バケットには次のものが含まれます。

ワークスペースシステムデータ: ワークスペースシステムデータは、ノートブックの作成などのさまざまな Databricks 機能を使用すると生成されます。このバケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンドの結果、Spark ログが含まれます。
Unity Catalog ワークスペースカタログ: ワークスペースが Unity Catalog に対して自動的に有効になっている場合、ワークスペースストレージバケットにはデフォルトのワークスペースカタログが含まれます。ワークスペース内のすべてのユーザーは、このカタログのデフォルトスキーマにアセットを作成できます。「Unity Catalog を使い始める」を参照してください。
DBFS (レガシー): DBFSルートおよびDBFSマウントはレガシーであり、ワークスペースで無効になっている可能性があります。 DBFS (Databricks ファイルシステム) は、 dbfs:/名前空間でアクセスできる Databricks 環境の分散ファイルシステムです。DBFSルートとDBFSマウントは両方ともdbfs:/名前空間にあります。 DBFSルートまたはDBFSマウントを使用してデータを保存およびアクセスすることは非推奨のパターンであり、 Databricksでは推奨されていません。詳細については、 DBFSとは何ですか?」を参照してください。。

Databricksオブジェクト​

ワークスペースアーキテクチャ​

クラシックなワークスペースアーキテクチャ​

サーバレスワークスペースアーキテクチャ​

サーバレス コンピュート プレーン​

クラシックコンピュートプレーン​

ワークスペースストレージ​

サーバレスワークスペース​

クラシックワークスペース​