Databricksでのデータウェアハウジングとは

データウェアハウジングとは、複数のソースからデータを収集して保存し、ビジネス上の知見やレポート作成のためにすばやくアクセスできるようにすることを指します。 この記事では、データレイクハウスにデータウェアハウスを構築するための重要な概念について説明します。

レイクハウス内のデータウェアハウジング

レイクハウス アーキテクチャと Databricks SQL により、クラウド データウェアハウジング機能がデータレイクに導入されます。 使い慣れたデータ構造、リレーション、管理ツールを使用して、データレイク上で直接実行される、高性能で費用対効果の高いデータウェアハウスをモデル化できます。 詳細については、「 データ レイクハウスとは」を参照してください。

データウェアハウジング、 データエンジニアリング、データストリーミング、データサイエンスと機械学習を含む最上位層を持つレイクハウスアーキテクチャ

従来のデータウェアハウスと同様に、ビジネス要件に従ってデータをモデル化し、アナリティクスやレポートのためにエンドユーザーに提供します。 従来のデータウェアハウスとは異なり、ビジネスアナリティクスデータのサイロ化や、すぐに陳腐化する冗長なコピーの作成を回避できます。

レイクハウス内にデータウェアハウスを構築すると、すべてのデータを 1 つのシステムに取り込み、Unity Catalog や Delta Lake などの機能を活用できます。

Unity Catalog では、データ アクセスをセキュリティで保護して監査し、ダウンストリーム テーブルに関するリネージ情報を提供できるように、統一されたガバナンス モデルが追加されています。 Delta Lake は、データの信頼性、拡張性、高品質を維持するための強力なツールとして、ACIDトランザクションとスキーマ進化を追加します。

Databricks SQLとは

Databricks SQL は、既存のデータレイクにデータウェアハウジングの機能とパフォーマンスをもたらすサービスのコレクションです。 Databricks SQL では、オープン形式と標準の ANSI SQL がサポートされています。 プラットフォーム内の SQL エディターとダッシュボード ツールにより、チーム メンバーはワークスペースで他の Databricks ユーザーと直接共同作業を行うことができます。 また、Databricks SQL はさまざまなツールと統合されているため、アナリストは新しいプラットフォームに適応することなく、お気に入りの環境でクエリーやダッシュボードを作成できます。

Databricks SQL は、レイクハウス内のテーブルに対して実行される一般的なコンピュート リソースを提供します。 Databricks SQL はSQLwarehouseを利用しており、ストレージから切り離されたスケーラブルな SQL コンピュート リソースを提供します。

「SQL ウェアハウスとは何ですか?」を参照してください。 SQLwarehouse のデフォルトとオプションの詳細については、「SQLwarehouse のデフォルトとオプション」を参照してください。

Databricks SQL は Unity Catalog と統合されているため、データ資産を 1 か所から検出、監査、管理できます。 詳細については、「 Unity Catalog とは」を参照してください。

Databricks でのデータモデリング

レイクハウスは、さまざまなモデリング スタイルをサポートしています。 次の図は、データがレイクハウスのさまざまなレイヤーを通過するときに、データがどのようにキュレーションされ、モデル化されるかを示しています。

メダリオン レイクハウスのアーキテクチャの各レベルでのさまざまなデータ モデルを示す図。

メダリオンアーキテクチャ

メダリオン アーキテクチャは、レイクハウスの基本構造を提供する一連の段階的に調整されたデータ レイヤーを記述するデータ デザイン パターンです。 ブロンズ、シルバー、ゴールドのレイヤーは、各レベルでのデータ品質の向上を意味し、ゴールドは最高品質を表します。 詳細については、「 メダリオン レイクハウスのアーキテクチャとは」を参照してください。

レイクハウス内では、各レイヤーに 1 つ以上のテーブルを含めることができます。 データウェアハウスはシルバーレイヤーでモデル化され、ゴールドレイヤーで特殊なデータマートにフィードされます。

ブロンズレイヤー

データは、任意の形式で、バッチトランザクションまたは蒸しトランザクションの任意の組み合わせを通じてレイクハウスに入ることができます。 ブロンズレイヤーは、元の形式のすべての生データのためのランディングスペースを提供します。 そのデータは Delta テーブルに変換されます。

シルバーレイヤー

シルバーレイヤーは、さまざまなソースからのデータをまとめたものです。 データサイエンスと機械学習のアプリケーションに重点を置いたビジネスでは、ここから有意義なデータ資産のキュレーションを開始します。 このプロセスでは、多くの場合、スピードと敏捷性に重点が置かれています。

また、シルバーレイヤーでは、異なるソースからのデータを慎重に統合し、既存のビジネスプロセスに沿ったデータウェアハウスを構築できます。 多くの場合、このデータは第 3 正規形 (3NF) または Data Vault モデルに従います。 主キーと外部キーの制約を指定すると、エンド ユーザーは Unity Catalog を使用するときにテーブルのリレーションシップを理解できます。 データウェアハウスは、データマートの信頼できる唯一の情報源として機能する必要があります。

データウェアハウス自体は、スキーマオンライトであり、アトミックです。 データウェアハウスは変更に合わせて最適化されているため、ビジネスプロセスが変化または進化したときに、現在のニーズに合わせてデータウェアハウスをすばやく変更できます。

ゴールドレイヤー

ゴールドレイヤーはプレゼンテーション層で、1 つ以上のデータマートを含めることができます。 多くの場合、データマートは、特定のビジネスパースペクティブをキャプチャする一連の関連テーブル形式のディメンションモデルです。

ゴールドレイヤーには、部門とデータサイエンスのサンドボックスも格納されており、企業全体でセルフサービスのアナリティクスとデータサイエンスを可能にします。 これらのサンドボックスと独自の個別のコンピュートクラスターを提供することで、ビジネスチームがレイクハウスの外部にデータのコピーを作成するのを防ぐことができます。

次のステップ

Databricks を使用してレイクハウスを実装および運用するための原則とベスト プラクティスの詳細については、 well-architectedデータレイクハウスの紹介」を参照してください。