Databricks アーキテクチャの概要
この記事では、Databricks アーキテクチャの概要(エンタープライズ アーキテクチャを含む)と Google Cloud の組み合わせについて説明します。
高レベルのアーキテクチャ
Databricks は、 コントロールプレーン と コンピュートプレーン から動作します。
-
コントロールプレーン には、DatabricksアカウントでDatabricksが管理するバックエンドサービスが含まれます。 Webアプリケーションはコントロールプレーンにあります。
-
コンピュートプレーン は、データが処理される場所です。 使用するコンピュートに応じた2 種類のコンピュートプレーンが存在します。
- サーバレスコンピュートの場合、サーバレスコンピュートリソースはDatabricksアカウントの サーバレスコンピュートプレーン で実行されます。
- クラシック Databricks コンピュートの場合、コンピュート リソースは Google Cloud リソース内の クラシック コンピュートプレーン 内にあります。 これは、Google Cloud リソースとそのリソース内のネットワークを指します。
クラシック コンピュートとサーバレス コンピュートの詳細については、 コンピュートの種類を参照してください。
各 Databricks ワークスペースには、 ワークスペース ストレージ バケット と呼ばれる 2 つのバケット アカウントが関連付けられています。 ワークスペースのストレージ バケットは、Google Cloud アカウントにあります。
次の図は、Databricks の全体的なアーキテクチャを示しています。
サーバレス コンピュート プレーン
サーバレス コンピュート プレーンで、Databricks アカウント内のコンピュート レイヤーでコンピュート リソースDatabricks実行します。Databricks は、ワークスペースの従来のコンピュートプレーンと同じ Google Cloud リージョンにサーバレス コンピュート平面を作成します。 このリージョンは、ワークスペースの作成時に選択します。
サーバーレスコンピュートプレーン内の顧客データを保護するために、サーバーレスコンピュートはワークスペースのネットワーク境界内で実行され、さまざまなセキュリティレイヤーを使用して、同じ顧客のクラスター間で異なるDatabricksワークスペースと追加のネットワーク制御を分離します。
サーバレス コンピュート プレーンのネットワーキングの詳細については、 サーバレス コンピュート プレーン ネットワーキングを参照してください。
クラシックコンピュートプレーン
従来のコンピュートプレーンでは、Google Cloud アカウントでDatabricksコンピュート リソースを実行 します。 新しいコンピュート リソースは、各ワークスペースの仮想ネットワーク内の顧客の Google Cloud アカウント内に作成されます。
従来のコンピュートプレーンは、各顧客自身のGoogle Cloudアカウントで実行されるため、自然に分離されています。 クラシック コンピュート プレーンでのネットワークの詳細については、クラシック コンピュート プレーン ネットワークを参照してください。
リージョンのサポートについては、「 Databricks のクラウドとリージョン」を参照してください。
ワークスペースのストレージバケット
ワークスペースを作成すると、Databricks は Google Cloud アカウントに 3 つのバケットを作成し、ワークスペースのストレージバケットとして使用します。
- 1 つのワークスペース ストレージ バケットには、ノートブックの作成など、さまざまな Databricks 機能を使用するときに生成される ワークスペース システム データ が格納されます。 このバケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログが含まれます。
- 別のワークスペース・ストレージ・バケットは、 DBFS 用のワークスペースのルート・ストレージです。DBFS(Databricks File System)は、
dbfs:/
ネームスペースでアクセス可能なDatabricks環境内の分散ファイルシステムです。DBFSルート マウントと DBFS マウントはどちらもdbfs:/
名前空間にあります。 DBFSルート マウントまたは DBFS マウントを使用したデータの格納とアクセスは非推奨のパターンであり、Databricksでは推奨されません。詳細については、DBFSとはを参照してください。 - ワークスペースでUnity Catalogが自動的に有効になっている場合、3 番目のワークスペース ストレージ バケットには デフォルト Unity Catalog ワークスペース カタログ が含まれています。ワークスペース内のすべてのユーザーは、このカタログのデフォルトスキーマにアセットを作成できます。 Unity Catalog の設定と管理を参照してください。
ワークスペースのストレージ バケットへのアクセスを制限するには、 プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。