データレイクハウスアーキテクチャ: Databricks Well-architectedフレームワーク
このデータレイクハウスのアーキテクチャに関する一連の記事では、Databricksを使用してレイクハウスを実装および運用するための原則とベストプラクティスを紹介します。
レイクハウスのためのDatabricks well-architectedフレームワーク
Well-architectedレイクハウスは、データレイクハウスクラウド上での実装に関するさまざまな懸念事項を説明する7つの柱で構成されています。
データガバナンス
データが価値をもたらし、ビジネス戦略をサポートするよう徹底するための監視。
相互運用性とユーザビリティ
レイクハウスがユーザーや他のシステムと相互作用する能力。
オペレーショナルエクセレンス
レイクハウスの本番運用を維持するすべてのオペレーションプロセス。
セキュリティ、プライバシー、コンプライアンス
Databricksアプリケーション、顧客ワークロード、顧客データを脅威から保護します。
信頼性
障害から回復し、機能を継続するシステムの能力。
パフォーマンス効率
負荷の変化に適応するシステムの能力。
コスト最適化
提供される価値を最大化するためのコスト管理。
Well-architectedレイクハウスは、 AWS Well-Architected FrameworkをDatabricksデータインテリジェンスプラットフォームに拡張し、「オペレーショナルエクセレンス」、「セキュリティ」(「セキュリティ、プライバシー、コンプライアンス」として)、「信頼性」、「パフォーマンス効率」、「コスト最適化」の柱を共有しています。
これらの5つの柱については、クラウドフレームワークの原則とベストプラクティスがレイクハウスにも適用されます。Well-architectedレイクハウスは、レイクハウスに固有であり、効果的かつ効率的なレイクハウスを構築するために重要な原則とベストプラクティスでこれらを拡張します。
データガバナンスと相互運用性およびレイクハウスアーキテクチャにおけるユーザビリティ
「データガバナンス」と「相互運用性と使いやすさ」という柱は、レイクハウスに特有の懸念事項に対応します。
データガバナンスは、組織内のデータ資産を安全に管理するために実装されたポリシーとプラクティスをカプセル化します。レイクハウスの基本的な側面の1つは、一元化されたデータガバナンスです:レイクハウスは、データウェアハウジングとAIのユースケースを単一のプラットフォームに統合します。これにより、従来はデータエンジニアリング、アナリティクス、BI、データサイエンス、機械学習を分離して複雑にしていたデータサイロが排除され、最新のデータスタックが簡素化されます。データガバナンスを簡素化するために、レイクハウスはデータ分析とAIのための統合ガバナンスソリューションを提供します。データのコピーを最小限に抑え、すべてのデータガバナンスコントロールを一緒に実行できる単一のデータ処理レイヤーに移行することで、コンプライアンスを維持し、データ侵害を検出する可能性が向上します。
レイクハウスのもう1つの重要な原則は、レイクハウスで働くすべてのペルソナに優れたユーザーエクスペリエンスを提供し、外部システムの幅広いエコシステムと対話できるようにすることです。AWSには、データドリブンの企業が必要とするほとんどのタスクを実行できるさまざまなデータツールがすでに用意されています。ただし、すべての機能を提供するにはこれらのツールを適切に組み立てる必要があり、各サービスでは異なるユーザーエクスペリエンスが提供されます。このアプローチは実装コストが高く、通常、ネイティブなレイクハウスプラットフォームと同じユーザーエクスペリエンスを提供しません。ユーザーは、ツール間の不一致やコラボレーション機能の欠如によって制限され、システム、ひいてはデータにアクセスするために複雑なプロセスを経なければならないことがよくあります。
一方、統合されたレイクハウスは、すべてのワークロードにわたって一貫したユーザー体験を提供するため、使いやすさが向上します。これにより、トレーニングとオンボーディングのコストが削減され、部門間のコラボレーションが向上します。さらに、新機能は時間の経過とともに自動的に追加されるため、社内のリソースや予算を投入することなく、ユーザー体験をさらに向上させることができます。
マルチクラウド手法は、企業の意図的な戦略である場合もあれば、合併・買収の結果や、事業部門ごとに異なるクラウドプロバイダーを選択した結果である場合もあります。この場合、マルチクラウドのレイクハウスを使用することで、すべてのクラウドで統一されたユーザーエクスペリエンスが得られます。これにより、企業全体のシステムの増加が抑えられ、データドリブンのタスクに携わる従業員のスキルやトレーニングの要件も軽減されます。
最後に、企業間のビジネスプロセスが存在するネットワーク化された世界では、システムは可能な限りシームレスに連携する必要があります。相互運用性の程度はここでの重要な基準であり、あらゆるビジネスの中核資産である最新データは、社内外のパートナーのシステム間を安全に流れる必要があります。