データモデリング

データモデリングの決定は、組織とワークロードがどのようにテーブルを使用するかによって異なり、選択するモデルは、クエリのパフォーマンス、コンピュートコスト、およびストレージコストに影響します。このページでは、新しいテーブルのセットアップやETLワークロードの作成を行うユーザー向けに、データモデリングに影響するDatabricksの動作について説明します。

重要

この記事は、すべてのUnity Catalogマネージドテーブルを含むDelta Lake によってサポートされるテーブルにのみ適用されます。

Databricks を使用して、レイクハウスフェデレーションに登録されたテーブルなど、他の外部データソースをクエリできます。各外部データソースには、異なる制限、セマンティクス、およびトランザクションの保証があります。データのクエリを参照してください。

データベース管理の概念

Databricksで建てられたレイクハウスは、他のエンタープライズデータウェアハウジングシステムと多くのコンポーネントと概念を共有しています。データモデルを設計する際には、次の概念と機能を考慮してください。

Databricks でのトランザクション

Databricks は、トランザクションのスコープを個々のテーブルに設定します。つまり、Databricks はマルチテーブルステートメント (マルチステートメントトランザクションとも呼ばれます) をサポートしていません。

データモデリングワークロードの場合、これは、ソースレコードを取り込むために2つ以上のテーブルに行を挿入または更新する必要がある場合に、複数の独立したトランザクションを実行する必要があることを意味します。これらの各トランザクションは、他のトランザクションとは無関係に成功または失敗する可能性があり、ダウンストリームクエリは、トランザクションの失敗または遅延による状態の不一致を許容する必要があります。

Databricks の主キーと外部キー

プライマリ・キーと外部キーは情報提供であり、強制されません。このモデルは、多くのエンタープライズクラウドベースのデータベースシステムで一般的ですが、従来の多くのリレーショナルデータベースシステムとは異なります。 Databricks の制約を参照してください。

Databricks での結合

ジョインは、どのデータベース設計でも処理のボトルネックを引き起こす可能性があります。 Databricks でデータを処理する場合、クエリオプティマイザーは結合のプランを最適化しようとしますが、個々のクエリで多くのテーブルの結果を結合する必要がある場合は、問題が発生する可能性があります。また、オプティマイザーは、filter パラメーターが別のテーブルのフィールドにある場合に、テーブル内のレコードをスキップできず、フル・テーブル・スキャンが行われる可能性があります。

Databricks での結合の操作を参照してください。

注記

マテリアライズドビューを使用して、一部のジョイン操作の結果をインクリメンタルにコンピュートできますが、他のジョインはマテリアライズドビューと互換性がありません。マテリアライズドビューを参照してください。

ネストされたデータ型と複合データ型の操作

Databricks は、JSON、Avro、Protobuf などの半構造化データソースの操作と、構造体、JSON 文字列、マップ、配列としての複雑なデータの保存をサポートしています。「半構造化データのモデル化」を参照してください。

正規化されたデータモデル

Databricks は、どのデータモデルでも適切に機能します。 Databricks からクエリを実行する必要がある、または Databricks に移行する必要がある既存のデータモデルがある場合は、データを再設計する前にパフォーマンスを評価する必要があります。

新しいレイクハウスを設計したり、既存の環境にデータセットを追加したりする場合、Databricks では、第 3 正規形 (3NF) などの高度に正規化されたモデルを使用しないことをお勧めします。

スタースキーマやスノーフレークスキーマなどのモデルは、標準クエリに存在する結合が少なく、同期を維持するキーも少ないため、Databricks ではパフォーマンスが良好です。さらに、1 つのテーブルに多くのデータフィールドがあると、クエリオプティマイザーはファイルレベルの統計を使用して大量のデータをスキップできるようになります。データスキップの詳細については、「データスキップ」を参照してください。

データベース管理の概念​

Databricks でのトランザクション​

Databricks の主キーと外部キー​

Databricks での結合​

ネストされたデータ型と複合データ型の操作​

正規化されたデータモデル​