メインコンテンツまでスキップ

データ準備のチートシート

ハイエンドBIパフォーマンスは、データがいかに効率的に準備され、レイクハウスから配信されるかによって決まります。 アーキテクチャ パターンを採用し、セマンティック構造を適用し、ターゲットを絞った最適化を使用することで、クエリの複雑さを軽減し、ダッシュボードの応答性を向上させ、コンピュート コストを削減できます。

次の表は、推奨されるプラクティス、その予想される影響、関連ドキュメント、および関連するアクション項目をまとめたものです。このコンテンツは、レイクハウスでアナリティクス ワークロードを設計、最適化、保守するデータ エンジニア、 BI開発者、ダッシュボード作成者を対象としています。

データ準備

ベストプラクティス

インパクト

ドキュメント

操作項目

メダリオンアーキテクチャを採用する

生データをすぐに使用できる信頼性の高いデータ製品に変換して、簡単に消費できるようにします。

-メダリオンアーキテクチャ -メダリオンアーキテクチャ用語集 -データウェアハウジングのコンセプト

メダリオンレイヤーの確認と実装

リキッドクラスタリングを使用する

ファイルとデータのスキップによりクエリのパフォーマンスが向上します。

-リキッドクラスタリング

フィルターパターンを使用して大きなテーブルに適用する

マネージドテーブルを利用する

Databricks は、ストレージ層とクエリ パフォーマンスを自動的に管理し、最適化します。

データ用のマネージドテーブルを作成する

予測的最適化を使用するか、テーブルを手動で最適化します

ファイル サイズとレイアウトを最適化し、古いファイルを削除し、統計を更新することで、クエリ パフォーマンスが向上します。

-予測的最適化 -ファイルレイアウトを最適化 -分析テーブルコンピュートストレージメトリクス

本番運用テーブルに対して有効にするか、定期的な最適化をスケジュールしてデータ変更後にテーブルを分析します

スタースキーマパターンでデータをモデル化する

データのクエリと使用が容易になります。

-スタースキーマ用語集 -スター スキーマを実装するための 5 つの簡単なステップ

ファクトテーブルとディメンションテーブルを設計する

幅広いデータ型と高カーディナリティの列を避ける

データ モデルのサイズとメモリ消費を最適化し、クエリの効率を向上させます。

-データワークロードの最適化ガイド

データ型とカーディナリティを確認する

主キーと外部キーを宣言する(RELY を使用)

不要な結合と集計を排除してクエリを最適化します。

-制約によるクエリの最適化

ファクトテーブルとディメンションテーブルのキーを定義する

自動生成された列を使用する

クエリ時に値を計算する必要性を軽減します。

-生成された列

頻繁に計算されるフィールドを特定する

マテリアライズドビューと永続テーブルを使用する

最も一般的でリソースを大量に消費するクエリのデータを事前に集計することでパフォーマンスが向上します。

-テーブル -マテリアライズドビュー - Databricks SQLでマテリアライズドビューを使用する

一般的なクエリの集約ビューを作成する