フェーズ4:ネットワークアーキテクチャの設計
このフェーズでは、 Databricksのネットワークインフラストラクチャを設計します。 これには、アーキテクチャパターン、接続オプション、セキュリティ制御などが含まれます。
Databricksのネットワークについて理解する
Databricksのネットワークアーキテクチャは、3つの異なる通信経路を制御します。
- インバウンド (フロントエンド) 接続 : UI およびAPIsを介した管理コンソールおよびワークスペースへのユーザー アクセス。
- アウトバウンド (サーバーレス) 接続 : Databricksサーバーレス コンピュートからカスタマー リソースへのワークロード接続。
- クラシック (バックエンド) 接続 : クラシック コンピュート プレーンからコントロール プレーンへの接続を保護します。
ネットワーク セキュリティがどのように適用されるかは、コンピュート モデルに直接依存します。
- クラシック コンピュート : 顧客が管理するクラウド ネットワークでワークロードが実行されるため、ネットワークの状態は主に顧客が管理するセグメンテーション、ルーティング、プライベート接続、および下り制御を通じて実装されます。
- サーバー レス コンピュート: ワークロードはDatabricksで管理されたコンピュート プレーンで実行されるため、管理者は同じリスク モデルとエンタープライズ ネットワーク要件に合わせながら、接続、特にアウトバウンド アクセスを管理するためにプラットフォーム制御とアカウント レベルの構成にさらに依存します。
管理者は、これらのネットワーク制御をワークスペースの境界やワークスペースレベルのガードレールを補完するものとして捉えるべきです。ワークスペース制御はユーザー操作と許可される実行パターンを定義し、ネットワーク制御は到達可能性とデータ移動経路を制限します。組織は両方の保護層を利用することで、セキュリティ被害の範囲を縮小し、単一の制御層への過度な依存を避けることができる。
仮想プライベートネットワーク構成の設計
Databricks 、クラシック アーキテクチャとサーバー レス コンピュート アーキテクチャの両方にわたって、組織のセキュリティとコンプライアンスの姿勢に合わせた柔軟なネットワーキング オプションを提供します。
従来のワークスペース向け、顧客管理型の仮想プライベートクラウド
Databricksのクラシックワークスペースは、お客様のクラウド環境内の仮想プライベートクラウド(VPC)内にデプロイされます。最大限の制御を実現するため、Databricksは従来のワークスペースに顧客管理型の仮想ネットワークを使用することを推奨します。このモデルは、ネットワークトポロジー、サブネット範囲、およびセキュリティグループを最大限に制御できるため、厳格なセキュリティおよびコンプライアンス要件を満たす上で不可欠です。
サーバーレス コンピュート ( Databricksで管理される接続)
サーバーレス コンピュート リソース (サーバーレスSQLウェアハウスなど) の場合、 Databricksコンピュート プレーン ネットワーキングを管理し、運用の簡素化と管理オーバーヘッドの削減を提供します。 しかし、このモデルはデータプレーンのセキュリティとアクセスに対して依然として堅牢な制御を提供します。
- セキュアなイングレス/エグレス : セキュアなクラスター接続やプライベート サービス接続などの機能により、コンピュート モデルに関係なく、ワークスペース、コンピュート、データ ソース間のプライベート通信が保証されます。
- サーバーレス プライベート接続: ネットワーク接続 構成 (NCC) を使用すると、 Databricksで管理されるサーバーレス コンピュートの出力ルールを定義でき、コンピュート プレーンのトラフィックの宛先をきめ細かく制御できます。
この階層的なアプローチにより、レイクハウスアーキテクチャ内のさまざまなワークロードに対して、運用上の簡便性と詳細なネットワーク制御の最適なバランスを選択することが可能になります。
安全なクラスター接続 (SCC)
Secure Cluster Connectivity (SCC) は確実に推奨されており、ワークスペースの確実な展開モードです。 SCC は、コントロール プレーンからコンピュート プレーンへの呼び出しを反転します。
各 は、制御プレーン内の SCC リレーへの接続を開始し、安全な通信トンネルを確立します。 次に、コントロール プレーンは、このトンネルを通じてクラスター管理タスクをクラスターに送り返します。 その結果、クラシック コンピュート プレーン ノードでは、開いているポートやパブリック IP アドレスは必要ありません。 クラシック コンピュート プレーンからコントロール プレーンへの通信はすべてアウトバウンドです。
SCCアーキテクチャの利点
- コンピュート ノードにはパブリック IP アドレスは必要ありません。
- コンピュート セキュリティ グループには受信ポートは必要ありません。
- ネットワークセキュリティ体制の簡素化。
- コンピュート リソースの攻撃対象領域が減少しました。
SCCのベストプラクティス
- すべての新規ワークスペースでSCCを有効にする(デフォルト)。
- SCCを基本となるセキュリティ体制として使用します。
- SCCは、プライベートサービスコネクトやその他の高度なネットワーク機能と互換性があります。
IPアクセス制御戦略の設計
IPアクセスリストを設定することで、ユーザーまたはAPIクライアントがVPNやオフィスネットワークなどの既知の「安全な」IPアドレス範囲からアクセスしているかどうかを確認し、Databricksに接続できるIPアドレスを制限します。確立されたユーザーセッションは、VPNから切断するなど、ユーザーが「不正な」IPアドレスに切り替えた場合、機能しなくなります。
IPアクセスリストレベル
- ワークスペースレベルのIPアクセスリスト :個々のワークスペースに適用されます。
- アカウントレベルの IP アクセスリスト : アカウントおよびアカウントコンソールアクセスのすべてのワークスペースに適用されます。
IPアクセスリストパターン
- 企業VPN :企業VPNのIPアドレス範囲からのアクセスのみを許可します。
- オフィスネットワーク :特定のオフィス拠点からのアクセスを許可します。
- クラウド プロバイダー ネットワーク : 特定のクラウド リージョンまたは VPC からのアクセスを許可します。
- ハイブリッド方式 :異なるユーザータイプに対して複数のIPアドレス範囲を組み合わせる。
IPアクセスリストのベストプラクティス
- 一貫した運用を確保するため、まずはアカウントレベルのIPアクセスリストから始めましょう。
- ワークスペース固有の要件については、ワークスペースレベルのリストを使用してください。
- IPアドレスの範囲とその用途を文書化する。
- リモートワークのシナリオ(VPN要件など)を計画する。
- 本格的な運用開始前に、IPアクセスリストをテストしてください。
データ漏洩からの保護を設計する
ワークスペースにおけるデータ漏洩防止対策は、ネットワークのセキュリティ強化、ルーティングの制限、およびワークスペースからの外部アクセスを制限するためのネットワークファイアウォールの追加によって設定できます。
データ漏洩防止パターン
- ネットワークのセグメンテーション :ワークスペースを分離されたVPCにデプロイします。
- 送信トラフィックのフィルタリング :ネットワークファイアウォールを使用して、送信トラフィックを制御します。
- プライベート接続 :プライベートサービス接続を使用して、インターネットへの露出を防いでください。
- ワークスペースの機能 :データ漏洩の可能性のある機能(ノートブックのエクスポート、データダウンロードボタンなど)を無効にします。
データ漏洩防止のためのベストプラクティス
- データ漏洩防止策は、データの機密性に基づいて評価する。
- 機密性の高い環境では、プライベートサービスコネクトを使用してください。
- ネットワークファイアウォールを設定して、必要な宛先のみを許可するようにしてください。
- データ漏洩につながる可能性のあるワークスペース機能を無効にしてください。
データ漏洩のセットアップに関する詳細なガイダンスについては、 「ネットワーク」を参照してください。
デザインプライベートサービスコネクト戦略
Private Service Connect は、クラウド プロバイダーの仮想ネットワークおよびオンプレミス ネットワークからクラウド プロバイダーのサービスへのプライベート接続を可能にし、公共のインターネットへの露出を回避します。
プライベートサービスコネクトアーキテクチャ
- フロントエンド プライベート サービス接続 : ワークスペース UI およびAPIsへのプライベート接続。
- バックエンド プライベート サービス Connect : コンピュートからコントロール プレーン サービスへのプライベート接続。
プライベートサービスコネクトは、ワークスペースレベルでのみサポートされています。IPアクセスリストは、アカウントレベルのサービスを引き続き保護することができます。
プライベートサービス接続のベストプラクティス
- 機密性の高いデータを扱うワークスペースには、プライベートサービスコネクトを使用してください。
- 最大限の分離性を確保するため、フロントエンドとバックエンドの両方でプライベートサービス接続を有効にしてください。
- プライベートサービスコネクトのエンドポイント向けDNS構成を計画する。
- 本番運用で使用する前に、プライベート サービスの接続をテストします。
サーバレス接続の設計 (NCC)
サーバーレス コンピュート リソースは、 Databricksによって管理されるサーバーレス コンピュート プレーンで実行されます。 アカウント管理者は、ネットワーク接続構成 (NCC) を使用して、サーバーレス コンピュート プレーンとそのリソースとの間の安全な接続を構成できます。
NCCの機能
- 安定したプロジェクト ID : VPC Service Controls用。
NCCアーキテクチャ
アカウント管理者はアカウント コンソールで NCC を作成し、各 NCC を 1 つ以上のワークスペースに接続できます。 NCC がワークスペースに接続されると、そのワークスペース内のサーバレス コンピュートは NCC のネットワーク構成を使用して顧客リソースへの安全な発信接続を確立します。 具体的な仕組みは、上記の機能の説明にあるように、クラウドプロバイダーによって異なります。
NCC は、サーバレス リソースへの受信接続には影響しません。
NCCのベストプラクティス
- 異なる環境 (たとえば、開発、ステージング、本番運用) ごとに個別の NCC を作成します。
- 隔離が必要な場合は、事業部門ごとに個別のNCC(ネットワーク制御センター)を作成してください。
- NCC を使用して、顧客リソースへのサーバーレスの出力を制御します。
- ストレージファイアウォールとデータベースにおける、NCC IPアドレス範囲の許可リスト。
GCPネットワークアーキテクチャ
すべてのクラスター ノードは、サブネットから 2 つの IP を使用します。1 つは内部クラスター通信用、もう 1 つは外部通信 (コントロール プレーン/データ ソースへの) 用です。
サブネットのサイズ設定
アドレス空間は少なくとも/26である必要があり、ワークスペース内のノード数の予測値に基づいて必要なネットワークサイズを次の表にまとめます。
ノードのサブネットサイズ | ワークスペースあたりの最大Databricksノード数 |
|---|---|
/25 | 60 |
/20 | 2,000 |
/19 | 4,000 |
コンピュートゾーン構成
コンピュート ゾーンや高可用性はクラスター設定として構成できます。 「auto」設定は、GCPによって動的に決定されるゾーンへの自動割り当てを示します。
プライベートなGoogleアクセス
組み込まれた Google サービスへのサーバーレスおよびクラシック コンピュート アクセスは、プライベート Google アクセス (PGA) 経由で行われます。 従来のコンピュートでは、ノードサブネット内からPGA APIsアクセス可能であること(ファイアウォールで許可リストに登録されていること)が必要です。
NatGateway
インターネットへのアクセスは、通常は別のサブネット上にNATゲートウェイを設置することによって確立されます。これらのサブネットのルーティングテーブルには、VPCに接続されているデフォルトのインターネットゲートウェイにトラフィックをルーティングする0.0.0.0/0のエントリを含める必要があります。これは、プライベートサービスコネクト(PSC)を使用しない限り、制御プレーンとの通信に必要です。
共有VPC
共有VPC内でのデプロイがサポートされています。ノードはサービスプロジェクト内に存在し、ネットワークアーティファクト(展開モードに応じてNATおよびルーター、またはPSCエンドポイント)はホストプロジェクト内に存在します。
VPC Service Controls
一部のセキュアなGCPデプロイメントでは、 VPC Service Controls ( VPC -SC)が使用されます。 Databricksは、独自のサービス境界内で実行することも、他のリソースとサービス境界を共有することもできます。このサービス境界は、データソースの境界とは異なる場合があります。展開の原則は、制御プレーンがコンピュートプレーンを管理し、両方のプレーンのIDがデータを管理する必要があるということです。 そのため、必要なVPC-SC制御はデプロイメントによって異なり、時間の経過とともに変更される可能性があります。SLA(サービスレベル契約)付きの固定的な「最小権限」構成はまだ利用できませんが、構成ガイドが提供されています。
リスク別ネットワークセキュリティ対策
リスクレベルが異なるデータやワークロードを抱える顧客は、ワークスペースとネットワークの制御を組み合わせることで、明確な運用境界を確立しつつ、共有ガバナンスとプラットフォームサービスを再利用できます。ワークスペース境界は、ドメインや環境(開発環境と本番環境など)を分離し、ワークスペーススコープの制御を適用するための効果的な方法です。ネットワーク制御は、ワークロードが実行できる場所や到達できる宛先(内部サービスや公共インターネットへのアクセスを含む)を制限する独立した強制レイヤーを提供する。
階層型ワークスペースモデルの例
リスクの高いワークロードは、より制限の厳しい接続環境に配置されます。制限付きリスク分類に準拠したワークスペースは、より厳格なVPC/VNet構成にデプロイされ、プライベートリポジトリや内部サービスなどの承認された送信先のみに制限されます。リスクの低いワークロードは、より制約の少ないネットワーク環境で動作させることができ、開発者のスピードを維持し、より幅広いパッケージへのアクセスを可能にする。
このモデルでは、管理者は複数のレイヤーで制御を調整できます。
- ワークスペースレベルの制御 : ワークスペース内で「誰が何をできるか」を定義します (アクセスと実行のガードレール)。
- ネットワークレベルの制御 :ワークロードが接続できる場所を定義します(VPC/VNetの制限と送信制御)。
設計の目標は「適切なレイヤーを選択する」ことではなく、相補的な制御を適用することである。ワークスペースを活用することで、明確な管理境界を設定し、環境間の影響範囲を縮小できます。ネットワークのセグメンテーションと送信制御を使用して、ユーザーがワークスペース内で幅広い権限を持っている場合でも有効な接続制約を適用します。
サーバレス ワークスペースにも同じ原則が適用されますが、コントロール サーフェスは顧客管理のネットワーク構造から、サーバレスの出口制御ポリシーなどのプラットフォーム コントロールに移行します。
ネットワークアーキテクチャに関する推奨事項
推奨
- 最大限の制御を実現するため、ワークスペースを顧客管理の仮想ネットワークに展開してください。
- サブネットは最低でも/26である必要がありますが、ほとんどのユースケースでは最低でも/23が必要です(上記のサイズに関する詳細を参照してください)。
- サーバレス NCC を顧客管理の VNet/ VPC設定に合わせます。
- IPアクセスリストを使用して、既知のIPアドレス範囲へのアクセスを制限します。
- 複数のワークスペース間でネットワークリソースを共有するには、ハブアンドスポークアーキテクチャを使用します。
- 複数の可用性ゾーンにリソースを配置することで、高可用性を実現する計画を立ててください。
要件に基づいて評価する
- 厳格なネットワーク セキュリティ ポリシーを持つ顧客向け:
- 追加のデータ漏洩防止策を評価する。
- 機密性の高いワークロードには、プライベートサービスコネクトの使用を検討してください。
- ネットワークファイアウォールを設定して、送信トラフィックを制御します。
第4相試験の結果
フェーズ4を完了すると、以下のものが得られます。
- ワークスペース向けに設計されたネットワークアーキテクチャ (顧客管理VPC )。
- セキュアクラスター接続 (SCC) 戦略が定義されました。
- IPアクセス制御戦略を設計しました。
- データ漏洩防止対策を評価しました(機密性の高いワークロード向け)。
- プライベートサービス接続戦略を定義する(コンプライアンスに必要な場合)。
- サーバレス ワークロード向けに設計されたサーバレス接続 (NCC)。
- クラウド環境に特化したネットワークアーキテクチャを設計しました(AWS/Azure/GCP)。
- ハブアンドスポーク型ネットワークアーキテクチャを評価した。
- リスクレベルに合わせたネットワークセキュリティ対策。
- サブネットのサイズは、想定されるサイズに基づいて計算されます。
次のフェーズ :フェーズ5:ストレージアーキテクチャの設計
実装ガイダンス :ネットワーク設計を実装するための手順については、 「ネットワーク」を参照してください。