データレイクハウスアーキテクチャ: Databricks Well-architected フレームワーク

この一連のデータレイクハウス アーキテクチャ記事では、Databricks を使用したレイクハウスの実装と運用の原則とベスト プラクティスを提供します。

レイクハウス のためのDatabricks well-architected フレームワーク

Well-architected フレームワーク:データレイクハウス図。

well-architectedレイクハウスは、データレイクハウス クラウド上での実装に関するさまざまな関心領域を説明する 7 つの柱で構成されています。

  • データガバナンス

    データが価値をもたらし、ビジネス戦略をサポートするようにするための監視。

  • 相互運用性とユーザビリティ

    ユーザーおよび他のシステムと対話するレイクハウスの機能。

  • オペレーショナルエクセレンス

    本番運用でレイクハウスを稼働し続けるすべての運用プロセス。

  • セキュリティ、プライバシー、コンプライアンス

    Databricks アプリケーション、顧客のワークロード、顧客データを脅威から保護します。

  • 信頼性

    システムが障害から回復し、機能を継続する能力。

  • パフォーマンス効率

    負荷の変化に適応するシステムの能力。

  • コストの最適化

    提供される価値を最大化するためのコスト管理。

well-architectedレイクハウスは、 AWS Well-Architected フレームワークを Databricks データ インテリジェンス プラットフォームに拡張し、「オペレーショナル エクセレンス」、「セキュリティ」 (「セキュリティ、プライバシー、コンプライアンス」として)、「信頼性」、「パフォーマンス効率」、および「コストの最適化」。

これら 5 つの柱については、クラウド フレームワークの原則とベスト プラクティスが引き続きレイクハウスに適用されます。 well-architectedレイクハウスは、効果的かつ効率的なレイクハウスを構築するために重要な、レイクハウスに固有の原則とベストプラクティスによってこれらを拡張します。

データガバナンスとレイクハウスアーキテクチャにおける相互運用性とユーザビリティ

データガバナンス」と「相互運用性と使いやすさ」の柱は、レイクハウス特有の懸念事項をカバーします。

データガバナンスは、組織内のデータ資産を安全に管理するために実装されたポリシーとプラクティスをカプセル化します。 レイクハウスの基本的な側面の1つは、一元化されたデータガバナンスです:レイクハウスは、データウェアハウジングとAIのユースケースを単一のプラットフォームに統合します。 これにより、従来は データエンジニアリング、アナリティクス、BI、データサイエンス、機械学習を分離して複雑にしていたデータサイロが排除され、最新のデータスタックが簡素化されます。 データガバナンスを簡素化するために、レイクハウスはデータ分析とAIのための統合ガバナンスソリューションを提供します。 データのコピーを最小限に抑え、すべてのデータガバナンスコントロールを一緒に実行できる単一のデータ処理レイヤーに移行することで、コンプライアンスを維持し、データ侵害を検出する可能性が向上します。

レイクハウスのもう 1 つの重要な理念は、レイクハウスを使用して作業するすべてのペルソナに優れたユーザー エクスペリエンスを提供し、外部システムの幅広いエコシステムと対話できるようにすることです。 AWS には、データドリブン企業が必要とするほとんどのタスクを実行するさまざまなデータ ツールがすでにあります。 ただし、すべての機能を提供するには、これらのツールを適切に組み立てる必要があり、サービスごとに異なるユーザー エクスペリエンスが提供されます。 このアプローチは実装コストが高くなる可能性があり、通常、ネイティブのレイクハウス プラットフォームと同じユーザー エクスペリエンスは提供されません。ユーザーは、ツール間の不一致やコラボレーション機能の欠如によって制限され、多くの場合、プラットフォームにアクセスするには複雑なプロセスを経る必要があります。システム、ひいてはデータにも影響を与えます。

もう一方の統合されたレイクハウスは、すべてのワークロードにわたって一貫したユーザー エクスペリエンスを提供するため、使いやすさが向上します。 これにより、トレーニングと新人研修のコストが削減され、部門間のコラボレーションが向上します。 さらに、内部リソースや予算を投資することなく、ユーザー エクスペリエンスをさらに向上させるために、時間の経過とともに新しい機能が自動的に追加されます。

マルチクラウド アプローチは、企業の意図的な戦略である場合もあれば、合併と買収や異なるクラウド プロバイダーを選択する独立した事業単位の結果である場合もあります。 この場合、マルチクラウド レイクハウスを使用すると、すべてのクラウドにわたって統一されたユーザー エクスペリエンスが得られます。 これにより、企業全体でのシステムの普及が減少し、その結果、データドリブンのタスクに関与する従業員のスキルとトレーニングの要件が軽減されます。

最後に、企業間のビジネスプロセスを持つネットワーク化された世界では、システムは可能な限りシームレスに連携する必要があります。 ここでは相互運用性の度合いが重要な基準であり、最新のデータはあらゆるビジネスの中核資産として、社内および社外のパートナーのシステム間で安全に送受信される必要があります。