Databricksのデータウェアハウジングとは何ですか?
データウェアハウジングとは、複数のソースからデータを収集して保存し、ビジネス上の知見やレポート作成のためにすばやくアクセスできるようにすることを指します。この記事では、データレイクハウスにデータウェアハウスを構築するための重要な概念について説明します。
あなたのレイクハウスにおけるデータウェアハウジング
レイクハウスのアーキテクチャと Databricks SQL は、クラウドデータウェアハウジングの機能をデータレイクにもたらします。 使い慣れたデータ構造、リレーション、および管理ツールを使用して、データレイク上で直接実行される、パフォーマンスが高く、費用対効果の高いデータウェアハウスをモデル化できます。 詳細については、「 データレイクハウスとは」を参照してください。
従来のデータウェアハウスと同様に、ビジネス要件に従ってデータをモデル化し、アナリティクスやレポートのためにエンドユーザーに提供します。従来のデータウェアハウスとは異なり、ビジネスアナリティクスデータのサイロ化や、すぐに陳腐化する冗長なコピーの作成を回避できます。
レイクハウス内にデータウェアハウスを構築すると、すべてのデータを 1 つのシステムにまとめ、Unity Catalog や Delta Lake などの機能を活用できます。
Unity Catalog では、データアクセスをセキュリティで保護して監査し、ダウンストリームテーブルでリネージ情報を提供できるように、統一されたガバナンスモデルが追加されています。Delta Lake では、ACIDトランザクションやスキーマの進化など、データの信頼性、拡張性、高品質を維持するための強力なツールが追加されています。
Databricks SQL とは
Databricks SQL は、既存のデータレイクにデータウェアハウジングの機能とパフォーマンスをもたらすサービスのコレクションです。 Databricks SQL では、オープン形式と標準の ANSI SQL がサポートされています。プラットフォーム内のSQLエディターとダッシュボードツールにより、チームメンバーはワークスペースで他のDatabricksユーザーと直接共同作業を行うことができます。また、Databricks SQL はさまざまなツールと統合されているため、アナリストは新しいプラットフォームに適応することなく、お気に入りの環境でクエリーやダッシュボードを作成できます。
Databricks SQL は、レイクハウスのテーブルに対して実行される一般的なコンピュート リソースを提供します。 Databricks SQL は、 SQLウェアハウス (旧称 SQLエンドポイント) を利用しており、ストレージから分離されたスケーラブルな SQL コンピュート リソースを提供します。
SQLウェアハウスのデフォルトとオプションの詳細については、「 SQLウェアハウスへの接続 」を参照してください。
Databricks SQL は Unity Catalog と統合されているため、データアセットを 1 か所から検出、監査、管理できます。 詳細については、「 Unity Catalog とは」を参照してください。
Databricks でのデータモデリング
レイクハウスは、さまざまなモデリングスタイルをサポートしています。次の図は、データがレイクハウスのさまざまなレイヤーを通過するときに、データがどのようにキュレーションされ、モデル化されるかを示しています。
メダリオンアーキテクチャ
メダリオンアーキテクチャは、レイクハウスの基本構造を提供する一連の段階的に改良されたデータ層を記述するデータ設計パターンです。 ブロンズ、シルバー、およびゴールドレイヤー は、各レベルでのデータ品質の向上を意味し、ゴールド は最高品質を表します。 詳細については、 メダリオン レイクハウスのアーキテクチャとはを参照してください。
レイクハウス内では、各レイヤーに 1 つ以上のテーブルを含めることができます。データウェアハウスはシルバーレイヤーでモデル化され、ゴールドレイヤーで特殊なデータマートにフィードされます。
ブロンズレイヤー
データは、任意の形式で、バッチトランザクションまたは蒸しトランザクションの任意の組み合わせを通じてレイクハウスに入ることができます。 ブロンズレイヤーは、元の形式のすべての生データのためのランディングスペースを提供します。そのデータは Delta テーブルに変換されます。
シルバーレイヤー
シルバーレイヤーは、さまざまなソースからのデータをまとめたものです。データサイエンスと機械学習のアプリケーションに重点を置いたビジネスでは、ここから有意義なデータ資産のキュレーションを開始します。このプロセスでは、多くの場合、スピードと敏捷性に重点が置かれています。
また、シルバーレイヤーでは、異なるソースからのデータを慎重に統合し、既存のビジネスプロセスに沿ったデータウェアハウスを構築できます。多くの場合、このデータは第 3 正規形 (3NF) または Data Vault モデルに従います。主キーと外部キーの制約を指定すると、エンド ユーザーは Unity Catalog を使用するときにテーブルのリレーションシップを理解できます。データウェアハウスは、データマートの信頼できる唯一の情報源として機能する必要があります。
データウェアハウス自体は、スキーマオンライトであり、アトミックです。データウェアハウスは変更に合わせて最適化されているため、ビジネスプロセスが変化または進化したときに、現在のニーズに合わせてデータウェアハウスをすばやく変更できます。
ゴールドレイヤー
ゴールドレイヤーはプレゼンテーション層で、1 つ以上のデータマートを含めることができます。多くの場合、データマートは、特定のビジネスパースペクティブをキャプチャする一連の関連テーブル形式のディメンションモデルです。
ゴールドレイヤーには、部門とデータサイエンスのサンドボックスも格納されており、企業全体でセルフサービスのアナリティクスとデータサイエンスを可能にします。これらのサンドボックスと独自の個別のコンピュートクラスターを提供することで、ビジネスチームがレイクハウスの外部にデータのコピーを作成するのを防ぐことができます。
次のステップ
Databricksを使用してレイクハウスを実装および運用するための原則とベスト プラクティスの詳細については、「Well-Architected データレイクハウスの概要」を参照してください。