メダリオンレイクハウスアーキテクチャとは

メダリオンアーキテクチャは、レイクハウスに格納されているデータの品質を示す一連のデータレイヤーを記述します。 Databricks では、エンタープライズ データ製品の信頼できる唯一の情報源を構築するために、多層アプローチを採用することをお勧めします。 このアーキテクチャは、データが効率的なアナリティクス用に最適化されたレイアウトに格納される前に、検証と変換の複数のレイヤーを通過するため、原子性、一貫性、分離性、および耐久性を保証します。 ブロンズ (生)、シルバー (検証済み)、および ゴールド (補強) という用語は、これらの各レイヤーのデータの品質を表します。

このメダリオンアーキテクチャは、他の次元モデリング技術に取って代わるものではない点に留意することが重要です。各レイヤー内のスキーマやテーブルは、データの更新頻度や性質、データのダウンストリームにおけるユースケースに応じて、形式や正規化の度合いが異なります。

Databricksレイクハウスを活用することにより、組織は社内全体でアクセスできる検証済みのデータセットの作成と維持を実施できます。データを製品としてキュレーションすることに重点を置いた組織的な考え方を採用することは、データレイクハウスの構築を成功させるための重要なステップです。

生データをブロンズレイヤーに取り込む

ブロンズレイヤーには未検証のデータが含まれています。ブロンズレイヤーに取り込まれるデータは通常、次のように動作します。

  • データソースの生(raw)の状態を維持します。

  • 増分的に追加され、時間の経過と共に大きくなります。

  • ストリーミング・トランザクションとバッチ・トランザクションのあらゆる組み合わせが可能です。

各データセットの未処理の全履歴を効率的なストレージ形式で保持すると、特定のデータシステムのあらゆる状態を再現できるようになります。

追加のメタデータ(ソースファイル名やデータが処理された時刻の記録など)を取り込み時にデータに追加することで、発見可能性の向上、ソースデータセットの状態の説明、およびダウンストリームアプリケーションでのパフォーマンスの最適化を図ることができます。

シルバーレイヤーのデータを検証して重複排除する

ブロンズレイヤーにはデータ履歴全体がほぼ未処理の状態で含まれているのに対し、シルバーレイヤーは検証済みの強化されたデータを表しており、これはダウンストリーム分析においても信頼できるデータであることに留意してください。

Databricksは、ブロンズ、シルバー、ゴールドテーブルによって導かれるレイクハウスのビジョンを強く信じていますが、シルバーレイヤーを効率的に実装するだけで、レイクハウスの潜在的なメリットの多くをただちに引き出すことができます。

どのデータパイプラインでも、シルバーレイヤーには複数のテーブルが含まれる場合があります。

ゴールドレイヤーを使用した分析の強化

このゴールドデータは、高度に洗練・集約されていることが多く、アナリティクス、機械学習、プロダクション・アプリケーションの原動力となるデータを含んでいます。レイクハウス内のすべてのテーブルには果たすべき重要な目的があります。ゴールドテーブルの場合、単なる情報ではなく、知識に変換されたデータを表しています。

アナリスト達は、主な業務を遂行するのにゴールドテーブルに依存しており、顧客と共有されるデータがこのレベル外で保存されることはほとんどありません。

これらのテーブルの更新は、定期スケジュールの本番運用ワークロードの一部として実施されるため、コストの管理に役立ち、データの鮮度に関するサービスレベルアグリーメント(SLA)を確立できます。

レイクハウスには、企業のデータウェアハウスで発生するようなデッドロックの問題はありませんが、データリクエストに対するクラウド制限を回避するために、ゴールドテーブルは別のストレージコンテナに保存されることがよくあります。

一般に、集計、結合、およびフィルタリングはデータがゴールドレイヤーに書き込まれる前に処理されるため、ゴールドテーブル内のデータに対する低レイテンシーのクエリーパフォーマンスをユーザーは確認できるはずです。