データ準備のチートシート
ハイエンドBIパフォーマンスは、データがいかに効率的に準備され、レイクハウスから配信されるかによって決まります。 アーキテクチャ パターンを採用し、セマンティック構造を適用し、ターゲットを絞った最適化を使用することで、クエリの複雑さを軽減し、ダッシュボードの応答性を向上させ、コンピュート コストを削減できます。
次の表は、推奨されるプラクティス、その予想される影響、関連ドキュメント、および関連するアクション項目をまとめたものです。このコンテンツは、レイクハウスでアナリティクス ワークロードを設計、最適化、保守するデータ エンジニア、 BI開発者、ダッシュボード作成者を対象としています。
データ準備
ベストプラクティス | インパクト | ドキュメント | 操作項目 |
|---|---|---|---|
メダリオンアーキテクチャを採用する | 生データをすぐに使用できる信頼性の高いデータ製品に変換して、簡単に消費できるようにします。 | メダリオンレイヤーの確認と実装 | |
リキッドクラスタリングを使用する | ファイルとデータのスキップによりクエリのパフォーマンスが向上します。 | フィルターパターンを使用して大きなテーブルに適用する | |
マネージドテーブルを利用する | Databricks は、ストレージ層とクエリ パフォーマンスを自動的に管理し、最適化します。 | データ用のマネージドテーブルを作成する | |
予測的最適化を使用するか、テーブルを手動で最適化します | ファイル サイズとレイアウトを最適化し、古いファイルを削除し、統計を更新することで、クエリ パフォーマンスが向上します。 | 本番運用テーブルに対して有効にするか、定期的な最適化をスケジュールしてデータ変更後にテーブルを分析します | |
スタースキーマパターンでデータをモデル化する | データのクエリと使用が容易になります。 | ファクトテーブルとディメンションテーブルを設計する | |
幅広いデータ型と高カーディナリティの列を避ける | データ モデルのサイズとメモリ消費を最適化し、クエリの効率を向上させます。 | データ型とカーディナリティを確認する | |
主キーと外部キーを宣言する(RELY を使用) | 不要な結合と集計を排除してクエリを最適化します。 | ファクトテーブルとディメンションテーブルのキーを定義する | |
自動生成された列を使用する | クエリ時に値を計算する必要性を軽減します。 | 頻繁に計算されるフィールドを特定する | |
マテリアライズドビューと永続テーブルを使用する | 最も一般的でリソースを大量に消費するクエリのデータを事前に集計することでパフォーマンスが向上します。 | 一般的なクエリの集約ビューを作成する |