フェーズ4:ネットワークアーキテクチャの設計
このフェーズでは、 Databricksのネットワークインフラストラクチャを設計します。 これには、アーキテクチャパターン、接続オプション、セキュリティ制御などが含まれます。
Databricksのネットワークについて理解する
Databricksのネットワークアーキテクチャは、3つの異なる通信経路を制御します。
- インバウンド (フロントエンド) 接続 : UI およびAPIsを介した管理コンソールおよびワークスペースへのユーザー アクセス。
- アウトバウンド (サーバーレス) 接続 : Databricksサーバーレス コンピュートからカスタマー リソースへのワークロード接続。
- クラシック (バックエンド) 接続 : クラシック コンピュート プレーンからコントロール プレーンへの接続を保護します。
ネットワーク セキュリティがどのように適用されるかは、コンピュート モデルに直接依存します。
- クラシック コンピュート : 顧客が管理するクラウド ネットワークでワークロードが実行されるため、ネットワークの状態は主に顧客が管理するセグメンテーション、ルーティング、プライベート接続、および下り制御を通じて実装されます。
- サーバー レス コンピュート: ワークロードはDatabricksで管理されたコンピュート プレーンで実行されるため、管理者は同じリスク モデルとエンタープライズ ネットワーク要件に合わせながら、接続、特にアウトバウンド アクセスを管理するためにプラットフォーム制御とアカウント レベルの構成にさらに依存します。
管理者は、これらのネットワーク制御をワークスペースの境界やワークスペースレベルのガードレールを補完するものとして捉えるべきです。ワークスペース制御はユーザー操作と許可される実行パターンを定義し、ネットワーク制御は到達可能性とデータ移動経路を制限します。組織は両方の保護層を利用することで、セキュリティ被害の範囲を縮小し、単一の制御層への過度な依存を避けることができる。
仮想プライベートネットワーク構成の設計
Databricks 、クラシック アーキテクチャとサーバー レス コンピュート アーキテクチャの両方にわたって、組織のセキュリティとコンプライアンスの姿勢に合わせた柔軟なネットワーキング オプションを提供します。
従来のワークスペース向け、顧客管理型の仮想プライベートクラウド
Databricksクラシック ワークスペースは、クラウド環境の仮想プライベート クラウド (仮想プライベート クラウド) 内にデプロイされます。 最大限の制御を実現するため、Databricksは従来のワークスペースに顧客管理型の仮想ネットワークを使用することを推奨します。このモデルは、ネットワークトポロジー、サブネット範囲、およびセキュリティグループを最大限に制御できるため、厳格なセキュリティおよびコンプライアンス要件を満たす上で不可欠です。
サーバーレス コンピュート ( Databricksで管理される接続)
サーバーレス コンピュート リソース (サーバーレスSQLウェアハウスなど) の場合、 Databricksコンピュート プレーン ネットワーキングを管理し、運用の簡素化と管理オーバーヘッドの削減を提供します。 しかし、このモデルはデータプレーンのセキュリティとアクセスに対して依然として堅牢な制御を提供します。
- セキュアなイングレス/エグレス : セキュアなクラスター接続やプライベート リンクなどの機能により、コンピュート モデルに関係なく、ワークスペース、コンピュート、データ ソース間のプライベート通信が保証されます。
- サーバーレス プライベート接続: ネットワーク接続 構成 (NCC) を使用すると、 Databricksで管理されるサーバーレス コンピュートの出力ルールを定義でき、コンピュート プレーンのトラフィックの宛先をきめ細かく制御できます。
この階層的なアプローチにより、レイクハウスアーキテクチャ内のさまざまなワークロードに対して、運用上の簡便性と詳細なネットワーク制御の最適なバランスを選択することが可能になります。
安全なクラスター接続 (SCC)
Secure Cluster Connectivity (SCC) は確実に推奨されており、ワークスペースの確実な展開モードです。 SCC は、コントロール プレーンからコンピュート プレーンへの呼び出しを反転します。
各 は、制御プレーン内の SCC リレーへの接続を開始し、安全な通信トンネルを確立します。 次に、コントロール プレーンは、このトンネルを通じてクラスター管理タスクをクラスターに送り返します。 その結果、クラシック コンピュート プレーン ノードでは、開いているポートやパブリック IP アドレスは必要ありません。 クラシック コンピュート プレーンからコントロール プレーンへの通信はすべてアウトバウンドです。
SCCアーキテクチャの利点
- コンピュート ノードにはパブリック IP アドレスは必要ありません。
- コンピュート セキュリティ グループには受信ポートは必要ありません。
- ネットワークセキュリティ体制の簡素化。
- コンピュート リソースの攻撃対象領域が減少しました。
SCCのベストプラクティス
- すべての新規ワークスペースでSCCを有効にする(デフォルト)。
- SCCを基本となるセキュリティ体制として使用します。
- SCCは、プライベートリンクやその他の高度なネットワーク機能に対応しています。
IPアクセス制御戦略の設計
IPアクセスリストを設定することで、ユーザーまたはAPIクライアントがVPNやオフィスネットワークなどの既知の「安全な」IPアドレス範囲からアクセスしているかどうかを確認し、Databricksに接続できるIPアドレスを制限します。確立されたユーザーセッションは、VPNから切断するなど、ユーザーが「不正な」IPアドレスに切り替えた場合、機能しなくなります。
IPアクセスリストレベル
- ワークスペースレベルのIPアクセスリスト :個々のワークスペースに適用されます。
- アカウントレベルの IP アクセスリスト : アカウントおよびアカウントコンソールアクセスのすべてのワークスペースに適用されます。
IPアクセスリストパターン
- 企業VPN :企業VPNのIPアドレス範囲からのアクセスのみを許可します。
- オフィスネットワーク :特定のオフィス拠点からのアクセスを許可します。
- クラウド プロバイダー ネットワーク : 特定のクラウド リージョンまたは VPC からのアクセスを許可します。
- ハイブリッド方式 :異なるユーザータイプに対して複数のIPアドレス範囲を組み合わせる。
IPアクセスリストのベストプラクティス
- 一貫した運用を確保するため、まずはアカウントレベルのIPアクセスリストから始めましょう。
- ワークスペース固有の要件については、ワークスペースレベルのリストを使用してください。
- IPアドレスの範囲とその用途を文書化する。
- リモートワークのシナリオ(VPN要件など)を計画する。
- 本格的な運用開始前に、IPアクセスリストをテストしてください。
データ漏洩からの保護を設計する
ワークスペースにおけるデータ漏洩防止対策は、ネットワークのセキュリティ強化、ルーティングの制限、およびワークスペースからの外部アクセスを制限するためのネットワークファイアウォールの追加によって設定できます。
データ漏洩防止パターン
- ネットワークのセグメンテーション :ワークスペースを分離された仮想プライベートクラウドにデプロイします。
- 送信トラフィックのフィルタリング :ネットワークファイアウォールを使用して、送信トラフィックを制御します。
- プライベート接続 :プライベートリンクを使用して、インターネットへの露出を防いでください。
- ワークスペースの機能 :データ漏洩の可能性のある機能(ノートブックのエクスポート、データダウンロードボタンなど)を無効にします。
データ漏洩防止のためのベストプラクティス
- データ漏洩防止策は、データの機密性に基づいて評価する。
- 機密性の高い環境では、プライベートリンクを使用してください。
- ネットワークファイアウォールを設定して、必要な宛先のみを許可するようにしてください。
- データ漏洩につながる可能性のあるワークスペース機能を無効にしてください。
データ漏洩のセットアップに関する詳細なガイダンスについては、 「ネットワーク」を参照してください。
デザインプライベートリンク戦略
Private Linkは、クラウドプロバイダーの仮想ネットワークおよびオンプレミスネットワークからクラウドプロバイダーのサービスへのプライベート接続を可能にし、それによって公共インターネットへの露出を回避します。
プライベートリンクアーキテクチャ
- フロントエンド プライベート リンク : ワークスペース UI およびAPIsへのプライベート接続。
- バックエンド プライベート リンク : コンピュートからコントロール プレーン サービスへのプライベート接続。
プライベートリンクはワークスペースレベルでのみサポートされています。IPアクセスリストは、アカウントレベルのサービスを引き続き保護することができます。
プライベートリンクのベストプラクティス
- 機密性の高いデータを扱うワークスペースには、プライベートリンクを使用してください。
- 最大限の分離性を確保するため、フロントエンドとバックエンドの両方のプライベートリンクを有効にしてください。
- プライベートリンクのエンドポイントに対するDNS設定を計画してください。
- 本番運用で使用する前に、Private Link の接続をテストします。
サーバレス接続の設計 (NCC)
サーバーレス コンピュート リソースは、 Databricksによって管理されるサーバーレス コンピュート プレーンで実行されます。 アカウント管理者は、ネットワーク接続構成 (NCC) を使用して、サーバーレス コンピュート プレーンとそのリソースとの間の安全な接続を構成できます。
NCCの機能
- 安定したIPアドレス :ファイアウォールの許可リスト用。
NCCアーキテクチャ
アカウント管理者はアカウント コンソールで NCC を作成し、各 NCC を 1 つ以上のワークスペースに接続できます。 NCC がワークスペースに接続されると、そのワークスペース内のサーバレス コンピュートは NCC のネットワーク構成を使用して顧客リソースへの安全な発信接続を確立します。 具体的な仕組みは、上記の機能の説明にあるように、クラウドプロバイダーによって異なります。
NCC は、サーバレス リソースへの受信接続には影響しません。
NCCのベストプラクティス
- 異なる環境 (たとえば、開発、ステージング、本番運用) ごとに個別の NCC を作成します。
- 隔離が必要な場合は、事業部門ごとに個別のNCC(ネットワーク制御センター)を作成してください。
- NCC を使用して、顧客リソースへのサーバーレスの出力を制御します。
- ストレージファイアウォールとデータベースにおける、NCC IPアドレス範囲の許可リスト。
AWSネットワークアーキテクチャ
基本VPC構成
顧客のAWSアカウントのVPCにデプロイされたコンピュート リソースを使用したクラシックAWSデプロイメントの場合、プライマリ アーキテクチャには次のものが必要です。
サブネットの要件
- AWSクラウドリージョン内の異なるアベイラビリティゾーン(AZ)にそれぞれ定義された、少なくとも2つのサブネット。
- SparkクラスターとSQLウェアハウスのEC2インスタンスのデプロイメント専用のサブネット。
- Databricksはノード(EC2インスタンス)ごとに2つのIPアドレスを割り当てます。
- 1 つは管理トラフィック (オーケストレーション、モニタリング、コントロール プレーン通信) に使用されます。
- クラスター内アプリケーション トラフィック用にSparkコンテナーによって使用される 1 つ。
サブネットのサイズ設定
DatabricksワークスペースVPCのネットマスクを制限しませんが、各ワークスペース サブネットには /17 から /26 までのネットマスクが必要です。 各サブネットのインスタンスの総数は、サブネット内の予約済みIPアドレス5個を除いた、利用可能なIPアドレス数の半分に相当します。
VPCサイズ(CIDR) | サブネットサイズ(CIDR) | サブネット/AZ あたりの最大 Databricks クラスター ノード数 |
|---|---|---|
| /17 | 16,381 (= (32,768-5) // 2) |
| /21 | 2,045 (= (4,096-5) // 2) |
| /26 | 29 (= (64-5) // 2) |
ルーティングテーブルの設定
これらのサブネットに関連付けられたルーティングテーブルには、以下の宛先へのルートが含まれている必要があります。
- S3サービス : VPC内にS3ゲートウェイVPCエンドポイントをインストールし、インストール時にサブネットを指定します。
- インターネットアクセス :NATゲートウェイ(またはネットワークファイアウォール)をターゲットとして、0.0.0.0/0へのルートを設定します。
インターフェースタイプ VPCエンドポイント
AWSのSTSおよびKinesisサービスにプライベートにアクセスするためのインターフェースタイプ(PrivateLinkベース) VPCエンドポイントを、別のより小さなサブネット(アベイラビリティゾーンごとに1つ)にインストールします。 これらのエンドポイントに接続されているセキュリティ グループは、 Databricksに接続されているセキュリティ グループからのイングレス アクセスを許可する必要があります。
S3サービスへのプライベートアクセスが厳密に必要な場合は、 S3 VPCエンドポイントタイプのインターフェースもインストールする必要があります。 しかし、これには高いコストがかかります。インターフェースタイプのVPCエンドポイントは、そこを通過するデータ量に応じて課金されるためです。コンプライアンス上の理由で厳密に必要とされる場合を除き、無料のゲートウェイS3 VPCエンドポイントを優先してください。
NATゲートウェイの設定
別のサブネットにNATゲートウェイをインストールして、インターネットアクセスを確立します。高可用性のインターネット アクセスを実現するには、 Databricksコンピュート インスタンスのサブネットによって使用される各可用性ゾーンに NAT ゲートウェイ (およびサブネット) をデプロイします。 これらのサブネットのルーティングテーブルには、VPCに接続されたインターネットゲートウェイにトラフィックをルーティングする0.0.0.0/0のエントリを含める必要があります。
ネットワークファイアウォール(オプション)
データ漏洩防止のためにネットワークファイアウォールが必要な場合は、専用のサブネット(アベイラビリティゾーンごとに1つ)にインストールしてください。ルーティングテーブルを以下のように設定します。
- NATゲートウェイサブネットのルーティングテーブル:インターネット(0.0.0.0/0)へのトラフィックをNATゲートウェイに転送します。
- Databricksコンピュート サブネットのルート テーブル: インターネットへのトラフィックをネットワーク ファイアウォール エンドポイントにルーティングします。
- NAT ゲートウェイ サブネットのルート テーブル: ネットワーク ファイアウォール エンドポイントを通じてトラフィックをDatabricksクラスターにルーティングします。
複数のワークスペースによるネットワークリソースの共有
1つのVPCを複数のワークスペースで共有できます。この場合、NATゲートウェイ、ネットワークファイアウォール、およびVPCエンドポイントのサブネットを共有できます。ただし、 Databricksクラスター展開用に異なるサブネットを作成する必要があります (ワークスペースごとに異なるセット)。
ハブアンドスポークアーキテクチャ
VPCハブアンドスポークアーキテクチャを使用すると、すべてのVPCエンドポイント、NATゲートウェイ、ファイアウォールなどがハブVPCにインストールされます。各ワークスペースは、同じまたは異なるAWSアカウント内の異なるVPC内のサブネット ( Databricksクラスターを起動するため) に関連付けられます。 スポークVPCは、トランジットゲートウェイを使用してハブVPCに接続されます。
リスク別ネットワークセキュリティ対策
リスクレベルが異なるデータやワークロードを抱える顧客は、ワークスペースとネットワークの制御を組み合わせることで、明確な運用境界を確立しつつ、共有ガバナンスとプラットフォームサービスを再利用できます。ワークスペース境界は、ドメインや環境(開発環境と本番環境など)を分離し、ワークスペーススコープの制御を適用するための効果的な方法です。ネットワーク制御は、ワークロードが実行できる場所や到達できる宛先(内部サービスや公共インターネットへのアクセスを含む)を制限する独立した強制レイヤーを提供する。
階層型ワークスペースモデルの例
リスクの高いワークロードは、より制限の厳しい接続環境に配置されます。制限付きリスク分類に準拠したワークスペースは、より厳格なVPC/VNet構成にデプロイされ、プライベートリポジトリや内部サービスなどの承認された送信先のみに制限されます。リスクの低いワークロードは、より制約の少ないネットワーク環境で動作させることができ、開発者のスピードを維持し、より幅広いパッケージへのアクセスを可能にする。
このモデルでは、管理者は複数のレイヤーで制御を調整できます。
- ワークスペースレベルの制御 : ワークスペース内で「誰が何をできるか」を定義します (アクセスと実行のガードレール)。
- ネットワークレベルの制御 :ワークロードが接続できる場所を定義します(VPC/VNetの制限と送信制御)。
設計の目標は「適切なレイヤーを選択する」ことではなく、相補的な制御を適用することである。ワークスペースを活用することで、明確な管理境界を設定し、環境間の影響範囲を縮小できます。ネットワークのセグメンテーションと送信制御を使用して、ユーザーがワークスペース内で幅広い権限を持っている場合でも有効な接続制約を適用します。
サーバレス ワークスペースにも同じ原則が適用されますが、コントロール サーフェスは顧客管理のネットワーク構造から、サーバレスの出口制御ポリシーなどのプラットフォーム コントロールに移行します。
ネットワークアーキテクチャに関する推奨事項
推奨
- 最大限の制御を実現するため、ワークスペースを顧客管理の仮想ネットワークに展開してください。
- サブネットは最低でも/26である必要がありますが、ほとんどのユースケースでは最低でも/23が必要です(上記のサイズに関する詳細を参照してください)。
- サーバレス NCC を顧客管理の VNet/ VPC設定に合わせます。
- IPアクセスリストを使用して、既知のIPアドレス範囲へのアクセスを制限します。
- 複数のワークスペース間でネットワークリソースを共有するには、ハブアンドスポークアーキテクチャを使用します。
- 複数の可用性ゾーンにリソースを配置することで、高可用性を実現する計画を立ててください。
要件に基づいて評価する
- 厳格なネットワーク セキュリティ ポリシーを持つ顧客向け:
- 追加のデータ漏洩防止策を評価する。
- 機密性の高いワークロードには、プライベートリンクの使用を検討してください。
- ネットワークファイアウォールを設定して、送信トラフィックを制御します。
第4相試験の結果
フェーズ4を完了すると、以下のものが得られます。
- ワークスペース(顧客管理型仮想プライベートクラウド)向けに設計されたネットワークアーキテクチャ。
- セキュアクラスター接続 (SCC) 戦略が定義されました。
- IPアクセス制御戦略を設計しました。
- データ漏洩防止対策を評価しました(機密性の高いワークロード向け)。
- プライベートリンク戦略を定義する(コンプライアンスに必要な場合)。
- サーバレス ワークロード向けに設計されたサーバレス接続 (NCC)。
- クラウド環境に特化したネットワークアーキテクチャを設計しました(AWS/Azure/GCP)。
- ハブアンドスポーク型ネットワークアーキテクチャを評価した。
- リスクレベルに合わせたネットワークセキュリティ対策。
- サブネットのサイズは、想定されるサイズに基づいて計算されます。
次のフェーズ :フェーズ5:ストレージアーキテクチャの設計
実装ガイダンス :ネットワーク設計を実装するための手順については、 「ネットワーク」を参照してください。