Databricks アーキテクチャの概要
この記事では、Databricks アーキテクチャの概要(エンタープライズ アーキテクチャを含む)と Google Cloud の組み合わせについて説明します。
高レベルのアーキテクチャ
Databricks は、 コントロールプレーン と コンピュートプレーン から動作します。
-
コントロールプレーン には、DatabricksアカウントでDatabricksが管理するバックエンドサービスが含まれます。 Webアプリケーションはコントロールプレーンにあります。
-
コンピュートプレーン は、データが処理される場所です。 使用するコンピュートに応じた2 種類のコンピュートプレーンが存在します。
- サーバレスコンピュートの場合、サーバレスコンピュートリソースはDatabricksアカウントの サーバレスコンピュートプレーン で実行されます。
- クラシック Databricks コンピュートの場合、コンピュート リソースは Google Cloud リソース内の クラシック コンピュート平面 内にあります。 これは、Google Cloud リソースとそのリソース内のネットワークを指します。
クラシック コンピュートとサーバレス コンピュートの詳細については、 コンピュートの種類を参照してください。
各 Databricks ワークスペース には、ワークスペース ストレージ バケット と呼ばれる 2 つのバケット アカウントが関連付けられています。 ワークスペースのストレージ バケットは、Google Cloud アカウントにあります。
次の図は、Databricks の全体的なアーキテクチャを示しています。
サーバレス コンピュート plane
サーバレス コンピュート プレーンで、Databricks アカウント内のコンピュート レイヤーでコンピュート リソースDatabricks実行します。Databricks は、ワークスペースの従来のコンピュート平面と同じ Google Cloud リージョンにサーバレス コンピュート平面を作成します。 このリージョンは、ワークスペースの作成時に選択します。
サーバーレスコンピュートプレーン内の顧客データを保護するために、サーバーレスコンピュートはワークスペースのネットワーク境界内で実行され、さまざまなセキュリティレイヤーを使用して、同じ顧客のクラスター間で異なるDatabricksワークスペースと追加のネットワーク制御を分離します。
サーバレス コンピュート プレーンのネットワーキングの詳細については、 サーバレス コンピュート プレーン ネットワーキングを参照してください。
クラシックコンピュートプレーン
従来のコンピュート平面では、Google Cloud アカウントでコンピュート リソースを実行 Databricks 。 新しいコンピュート リソースは、各ワークスペースの仮想ネットワーク内の顧客の Google Cloud アカウント内に作成されます。
従来のコンピュート平面は、各顧客自身のGoogle Cloudアカウントで実行されるため、自然に分離されています。 クラシック コンピュート プレーンでのネットワークの詳細については、「 クラシック コンピュート プレーン ネットワーク」を参照してください。
リージョンのサポートについては、「 Databricks のクラウドとリージョン」を参照してください。
ワークスペースのストレージバケット
ワークスペースを作成すると、Databricks は Google Cloud アカウントに 3 つのバケットを作成し、ワークスペースのストレージバケットとして使用します。
- 1 つのワークスペース ストレージ バケットには、ノートブックの作成など、さまざまな Databricks 機能を使用するときに生成される ワークスペース システム データが 格納されます。 このバケットには、ノートブックのリビジョン、ジョブ実行の詳細、コマンド結果、Spark ログが含まれます。
- 別のワークスペース・ストレージ・バケットは、 DBFS 用のワークスペースのルート・ストレージです。 DBFS(Databricks File System)は、
dbfs:/
ネームスペースでアクセス可能なDatabricks環境内の分散ファイルシステムです。 DBFSルート マウントと DBFS マウントはどちらもdbfs:/
名前空間にあります。 DBFSルート マウントまたは DBFS マウントを使用したデータの格納とアクセスは非推奨のパターンであり、Databricksでは推奨されません。詳細については、「DBFSとは」を参照してください。 - ワークスペースでUnity Catalogが自動的に有効になっている場合、3 番目のワークスペース ストレージ バケットには デフォルト Unity Catalog ワークスペース カタログ が含まれています。ワークスペース内のすべてのユーザーは、このカタログのデフォルトスキーマにアセットを作成できます。 「Unity Catalog の設定と管理」を参照してください。
ワークスペースのストレージ バケットへのアクセスを制限するには、 プロジェクト内のワークスペースの GCS バケットを保護するをご覧ください。