データレイクハウスアーキテクチャ: Databricks Well-architectedフレームワーク
このデータレイクハウスのアーキテクチャに関する一連の記事では、Databricksを使用してレイクハウスを実装および運用するための原則とベストプラクティスを紹介します。
レイクハウスのためのDatabricks well-architectedフレームワーク
Well-architectedレイクハウスは、データレイクハウスクラウド上での実装に関するさまざまな懸念事項を説明する7つの柱で構成されています。
データとAIのガバナンス
データとAIが価値をもたらし、ビジネス戦略をサポートするための監視。
相互運用性とユーザビリティ
レイクハウスがユーザーや他のシステムと相互作用する能力。
オペレーショナルエクセレンス
レイクハウスの本番運用を維持するすべてのオペレーションプロセス。
セキュリティ、プライバシー、コンプライアンス
Databricksアプリケーション、顧客ワークロード、顧客データを脅威から保護します。
信頼性
障害から回復し、機能を継続するシステムの能力。
パフォーマンス効率
負荷の変化に適応するシステムの能力。
コスト最適化
提供される価値を最大化するためのコスト管理。
Well-Architectedレイクハウスでは、AWS Well-ArchitectedフレームワークをDatabricksデータインテリジェンスプラットフォームに拡張し、「オペレーショナルエクセレンス」、「セキュリティ」(「セキュリティ、プライバシー、コンプライアンス」)、「信頼性」、「パフォーマンス効率」、「コスト最適化」を柱にしています。
これら 5 つの柱については、クラウド フレームワークの原則とベスト プラクティスがレイクハウスにも適用されます。 Well-Architectedレイクハウスは、レイクハウスに固有の原則とベストプラクティスでこれらを拡張し、効果的かつ効率的なレイクハウスを構築するために重要です。
レイクハウス特有の柱
「データとAIのガバナンス」と「相互運用性とユーザビリティ」の柱は、レイクハウス特有の懸念事項をカバーしています。
データと AI のガバナンスは、組織内のデータと AI 資産を安全に管理するために実装されたポリシーとプラクティスをカプセル化します。 レイクハウスの基本的な側面の1つは、一元化されたデータと AI ガバナンスです:レイクハウスは、データウェアハウジングと AI ユースケースを単一のプラットフォームに統合します。 これにより、データエンジニアリング、アナリティクス、 BI、データサイエンス、機械学習を従来分離し複雑にしていたデータサイロが排除され、最新のデータスタックが簡素化されます。 これらのガバナンス タスクを簡素化するために、レイクハウスは、データ分析と AIのための統合ガバナンス ソリューションを提供しています。 データのコピーを最小限に抑え、すべてのデータとAIガバナンス制御を一緒に実行できる単一のデータ処理レイヤーに移行することで、コンプライアンスを維持し、データ侵害を検出する可能性を高めることができます。
レイクハウスのもう1つの重要な原則は、レイクハウスで働くすべてのペルソナに優れたユーザーエクスペリエンスを提供し、外部システムの幅広いエコシステムと対話できるようにすることです。AWSには、データドリブンの企業が必要とするほとんどのタスクを実行できるさまざまなデータツールがすでに用意されています。ただし、すべての機能を提供するにはこれらのツールを適切に組み立てる必要があり、各サービスでは異なるユーザーエクスペリエンスが提供されます。このアプローチは実装コストが高く、通常、ネイティブなレイクハウスプラットフォームと同じユーザーエクスペリエンスを提供しません。ユーザーは、ツール間の不一致やコラボレーション機能の欠如によって制限され、システム、ひいてはデータにアクセスするために複雑なプロセスを経なければならないことがよくあります。
一方、統合されたレイクハウスは、すべてのワークロードにわたって一貫したユーザー体験を提供するため、使いやすさが向上します。これにより、トレーニングとオンボーディングのコストが削減され、部門間のコラボレーションが向上します。さらに、新機能は時間の経過とともに自動的に追加されるため、社内のリソースや予算を投入することなく、ユーザー体験をさらに向上させることができます。
マルチクラウド手法は、企業の意図的な戦略である場合もあれば、合併・買収の結果や、事業部門ごとに異なるクラウドプロバイダーを選択した結果である場合もあります。この場合、マルチクラウドのレイクハウスを使用することで、すべてのクラウドで統一されたユーザーエクスペリエンスが得られます。これにより、企業全体のシステムの増加が抑えられ、データドリブンのタスクに携わる従業員のスキルやトレーニングの要件も軽減されます。
最後に、企業間のビジネスプロセスが存在するネットワーク化された世界では、システムは可能な限りシームレスに連携する必要があります。相互運用性の程度はここでの重要な基準であり、あらゆるビジネスの中核資産である最新データは、社内外のパートナーのシステム間を安全に流れる必要があります。