セキュリティ、コンプライアンス、プライバシーのベストプラクティス
Databricksのセキュリティに関するベストプラクティスガイド(ダウンロード可能なPDF版を含む)は、Databricksセキュリティ&トラストセンターで入手できます。この記事の各セクションでは、このガイドに記載されているベストプラクティスを、この柱の原則に沿って列挙しています。
1. 最小限の特権を使用して ID とアクセスを管理する
アカウント設定と本人確認
デプロイ中に、 Databricksアカウント管理、 SSO 、およびユーザー プロビジョニングを構成して、安全な基盤を確立します。
- アカウント管理者の役割は、信頼できる2~3名のみに割り当ててください。
- 集中認証のためにOIDCまたはSAMLを使用してSSOを設定します。
- SCIMプロビジョニングを有効にして、アイデンティティ プロバイダーからのユーザーとグループの同期を自動化します。
- ワークスペース間で企業IDを連携させるためのIDフェデレーションを設定する
- IDプロバイダーレベルで多要素認証を設定する
- アカウント復旧のための緊急アクセス手順を定義する
アカウント設定の手順については、 「フェーズ1:アカウントとID戦略の設計」を参照してください。
IDおよびアクセス管理のベストプラクティス
- アカウントレベルでのシングルサインオン(SSO)による認証
- 多要素認証の活用
- 統合ログインを有効にし、緊急アクセスを構成する
- SCIM を使用してユーザーとグループを同期する
- 管理者ユーザーの数を制限する
- 管理アカウント間で職務分掌を徹底する
- ワークスペース管理者を制限する
- 最小特権の原則に従ってアクセスを管理する
- OAuth トークン認証を使用する
- トークン管理の強制
- クラスターの作成権限を制限する
- Use コンピュート ポリシー
- サービスプリンシパルを使用して、管理タスクと本番運用ワークロードを実行します
- ユーザー分離に対応したコンピュートを使う
- シークレットを安全に保存して使用する
- 制限付きクロスアカウント IAMロールを使用する
詳細は、この記事の冒頭で参照されているPDFに記載されています。
2。転送中と保存中のデータを保護します
- Unity Catalog によるデータガバナンスの一元化
- データ分離モデルを計画する
- DBFSでの本番運用データの保存は避ける
- S3バケットを暗号化し、パブリックアクセスを防止
- バケットポリシーを適用する
- S3 バージョン管理を使用する
- S3データのバックアップ
- マネージドサービスの顧客管理キーの構成
- ストレージの顧客管理キーを構成する
- Delta Sharing を使用する
- Delta Sharing 受信者トークンの有効期間を構成する
- さらに、Advanced Encryption Standard(AES)を使用して保存中の機密データを暗号化します
- ワークスペース内のデータ流出防止設定を活用する
- クリーンルームを使用して、プライバシーが保護された環境で共同作業を行う
詳細は、この記事の冒頭で参照されているPDFに記載されています。
3. ネットワークを保護し、エンドポイントを保護する
AWSにおけるネットワーク展開に関する考慮事項
Databricksワークスペースの安全なネットワーク インフラストラクチャをAWSに展開します。 次のステップにより、安全な接続が確立されます。
- ワークスペースのデプロイ用に、最小で/18 CIDRブロックを持つVPCを作成します。
- 高可用性を実現するために、複数の可用性ゾーンにプライベートサブネットをプロビジョニングする
- プライベートサブネットからのインターネットへのアウトバウンドアクセス用にNATゲートウェイを設定します。
- Databricksとの間のトラフィックを制御するセキュリティ グループを設定する
- Databricksコントロールプレーンへのプライベート接続のためにAWS PrivateLinkをデプロイする
- Secure Cluster Connectivity (SCC) を有効にして受信オープンポートを排除します
- オンプレミス接続のためにVPNまたはDirect Connectを設定する(必要な場合)。
- ネットワークセグメンテーションを実装して本番運用環境と非本番運用環境を分離する
AWSネットワークの設定手順については、 AWSネットワークアーキテクチャを参照してください。
ネットワークセキュリティのベストプラクティス
- 顧客管理VPCを使用する
- IP アクセス リストの設定
- AWS PrivateLink を使用する
- ネットワーク流出防止策を実装
- 機密性の高いワークロードを異なるネットワークに分離
- サーバレス コンピュート アクセス用のファイアウォールを構成する
- 貴重なコードベースへのアクセスを信頼できるネットワークのみに制限
詳細は、この記事の冒頭で参照されているPDFに記載されています。
4. コンプライアンスとデータプライバシーの要件を満たす
- コンピュートを定期的に再開する
- 機密性の高いワークロードを異なるワークスペースに分離する
- Unity Catalog のセキュリティ保護可能なリソースを特定のワークスペースに割り当てる
- きめ細かなアクセス制御を実装
- タグの適用
- リネージを使う
- AWS Nitro インスタンスを使用する
- Use Enhanced Security モニタリング または コンプライアンス Security Profile
- Databricks の担当者のワークスペースアクセスの制御と監視
- ディザスタリカバリ戦略の実装とテスト
詳細は、この記事の冒頭で参照されているPDFに記載されています。
5. システムセキュリティの監視
- システムテーブルの活用
- AWS CloudTrail やその他のログによるシステムアクティビティのモニタリング
- 詳細な監査ログを有効にする
- Git フォルダーでコード バージョンを管理する
- 信頼できるコードリポジトリへの使用制限
- Infrastructure-as-Codeによるインフラストラクチャのプロビジョニング
- CI/CD によるコードの管理
- 制御ライブラリのインストール
- 信頼できるまたは信頼できるソースからのモデルとデータのみを使用してください
- DevSecOpsプロセスの実装
- データ品質モニタリングを使用する
- 推論テーブルと AI ガードレールを使用する
- タグ付けをコストモニタリングとチャージバック戦略の一部として活用
- 予算を使用してアカウントの支出を監視する
- AWS のサービスクォータを使用する
詳細は、この記事の冒頭で参照されているPDFに記載されています。
追加のリソース
- セキュリティ&トラストセンターを見直して、Databricks Data Intelligence Platform の各レイヤーにセキュリティがどのように組み込まれているか、また、私たちが運用している責任共有モデルについて理解してください。
- Databricks AI Security Framework (DASF)をダウンロードして確認し、実際の攻撃シナリオに基づいて AI セキュリティの脅威を軽減する方法を理解する