Databricks本番運用計画
このセクションでは、本番運用可能なエンタープライズDatabricksレイク ハウス プラットフォームを計画および設計するための、構造化された段階的なアプローチを提供します。 本書は、段階的な実装手順ではなく、アーキテクチャ上の決定事項、設計パターン、およびベストプラクティスに焦点を当てています。
概要
このセクションは、管理者がDatabricksアカウントと本番運用ワークスペースの展開を計画するための中心原則と設計パターンを理解するのに役立ちます。
対象者
このセクションは、複雑なガバナンス、セキュリティ、およびマルチワークスペース要件を伴う エンタープライズでの本番運用展開 向けに設計されています。
- エンタープライズ向けDatabricks導入環境を設計するクラウドアーキテクト。
- 本番運用レイクハウスのインフラを計画するプラットフォームエンジニア。
- 複数のチーム向けにガバナンスおよびストレージ戦略を設計するデータアーキテクト。
- セキュリティチームが、規制環境におけるDatabricksのセキュリティパターンを評価している。
- 本番運用ワークスペース フリートを展開するアカウント管理者。
代わりに始めてみませんか? Databricksを初めて使用する場合、またはプラットフォームを検討している場合は、まず、サーバレス ワークスペースを作成します。 「サーバレス ワークスペースの作成」を参照してください。 本番運用アーキテクチャの設計準備が整ったら、このセクションに戻ってきてください。
補償内容
このセクションでは 、設計と建築に関する決定事項 に焦点を当てます。各フェーズでは、設計パターン、ベストプラクティス、および戦略的考慮事項が提示されます。段階的な実装手順については、各フェーズの最後にリンクされているドキュメントを参照してください。
Well-Architectedレイクハウス
各フェーズにはWell-Architectedレイクハウス フレームワークに沿ったベスト プラクティスが含まれています。 包括的なアーキテクチャ原則については、 「 Databricks Well-Architectedフレームワーク」を参照してください。
前提条件
本番運用の計画を開始する前に、次のものがあることを確認してください。
- クラウド アカウント : 適切な管理者権限を持つアクティブなクラウド アカウント。
- Databricksアカウント : Databricksアカウント コンソールへのアカウント管理者アクセス。
- 要件収集 :組織のセキュリティ、コンプライアンス、ガバナンスに関する要件を理解する。
- ネットワーク計画 :CIDR範囲と接続要件を含むネットワークアーキテクチャ計画。
- ID プロバイダー : SSO統合の ID プロバイダーの詳細 (本番運用に推奨)。
計画段階
このセクションは10のフェーズで構成されています。各フェーズは、組織のニーズと既存のインフラストラクチャに応じて、重複して実行することも、並行して実行することも可能です。
フェーズ実行戦略
- 順次実行 :新規導入の場合は、各フェーズを順番に完了してください。
- 並列処理 :独立したフェーズを同時に実行します(例:ネットワーク設定とID設定)。
- 反復的 :要件の変化に応じてフェーズを見直す(例えば、ワークスペースの追加、新しい地域への拡張など)。
フェーズ | 説明 |
|---|---|
基本的なアカウント管理とID管理戦略を設定します。 | |
組織構造、セキュリティ要件、および運用上のニーズに基づいて、ワークスペースのアーキテクチャを計画する。 | |
Unity Catalogガバナンスアーキテクチャを設計する。これには、メタストアパターン、カタログ構造、およびアクセス制御モデルが含まれる。 | |
Databricksコンピュートとデータ プレーン接続をサポートするクラウド ネットワーク インフラストラクチャを設計します。 | |
クラウドを横断したワークスペースストレージとデータストレージのためのストレージ戦略を設計する。 | |
レイクハウスのDelta Lakeストレージ アーキテクチャとデータ編成パターンを設計します。 | |
Databricksリソースのデプロイと管理を自動化するIaC戦略を設計します。 | |
コンピュート戦略とワークスペース設定を設計して、パフォーマンス、コスト、セキュリティを最適化します。 | |
優れた運用を確保するための可観測性とモニタリング戦略を設計します。 | |
事業継続性と回復力を確保するための高可用性(HA)および災害復旧(DR)戦略を設計する。 |
設計から実装まで
設計段階が完了したら、以下の方法でアーキテクチャを実装します。
インフラストラクチャの展開
- Terraform使用して、アカウント レベルのインフラストラクチャ (ワークスペース、ネットワーク、 Unity Catalogメタストアなど) をデプロイします。
- 宣言型自動化バンドルを使用して、データおよびAIワークロード(ジョブ、パイプライン、ノートブック、モデルなど)をデプロイします。
- CI/CDパイプラインを通じてデプロイメントを自動化します。
検証とテスト
- ワークスペースの接続性とコンピュート プロビジョニングをテストします。
- Unity Catalog権限とデータアクセスパターンを検証します。
- データソースへのネットワーク接続をテストします。
- 可観測性ダッシュボードとアラートを確認する。
追加リソース
ドキュメント
次のステップ
本番運用計画はフェーズ 1: アカウントから始めてください。