クエリのパフォーマンスに関する知識
備考
プレビュー
この機能はプライベートプレビュー段階です。試すには、Databricks の担当者に問い合わせてください。
クエリを実行すると、 Databricksパフォーマンスを向上させる機会を特定する知識を返す可能性があります。 このページには、サポートされている知見とその意味がリストされています。
パフォーマンスのベスト プラクティスのより広範な概要については、 「Databricks、Spark、および Delta Lake ワークロードを最適化するための包括的なガイド」を参照してください。
同時書き込み
カバレッジフィルターキークラスタリング
- テーブルは、テーブルスキャン中のフィルタリングに使用されない 1 つ以上のキーによってクラスター化されます。
- 推奨事項 : 目的の結果に必要なデータ サブセットを決定し、一致するクラスタリング キーにフィルターを追加して、読み取られるバイト数を減らします。
COVERAGE_FILTER_KEYS_PARTITIONING
- テーブルは、テーブルスキャン中のフィルタリングに使用されない 1 つ以上のキーによってパーティション分割されています。
- 推奨事項 : 目的の結果に必要なデータ サブセットを決定し、一致するパーティション キーにフィルターを追加して、読み取られるバイト数を減らします。
カバレッジ_フォトン
- Photon では操作を高速化できないため、標準のランタイム エンジンが使用されました。
- 推奨事項 : Photon制限を確認し、ランタイムを高速化するためにサポートされている実行戦略を使用するようにクエリを調整することを検討してください。
カバレッジ統計差分
-
テーブル スキャン ファイル フィルターのDeltaデータ スキップ統計が欠落しているか不完全なため、クエリではファイル内フィルタリングが使用されます。 次の統計ステータスが可能です。
- 完全 : すべてのフィルターの統計が利用できます。
- 部分的 : 統計はフィルターのサブセットで利用できます。
- 利用不可 : どのフィルターでも統計は利用できません。
- 未使用 : データ型を変換するフィルターでは統計を使用できませんでした。
-
推奨事項 : 読み取られるバイト数を減らすために、 Delta 統計を収集します。
カバレッジ統計オプティマイザー
- コストベースのオプティマイザー統計が欠落しているか不完全であるため、クエリ プランを生成するために標準ヒューリスティックが使用されました。
- 推奨事項 : オプティマイザーがより良いプランを作成できるように統計を収集します。
データスキュー
- 利用可能なコンピューティング リソースによってデータが不均一に処理されます。
- 推奨事項 : データの分布を確認し、キーにソルトを追加するか、データを事前に集計します。
データ漏洩
- データサイズがメモリに収まらなかったため、演算子の実行中にデータがディスクに書き出されました。
- 推奨事項 : ウェアハウスのサイズを大きくして、使用可能なメモリを増やします。 メモリ使用量を削減するには、行数、列数、または大きな列(文字列、配列、マップ、構造体)のサイズを減らしてください。
過剰な待ち時間
爆発結合
- 結合により、読み取った行よりも大幅に多くの行が生成されます。
- 推奨事項 : 必要な結果サブセットを決定し、結合を更新するか、両方のリレーションからの入力行の数を減らします。
フロー全体再計算
IO_スロットリング
- クラウド ストレージリクエストはクラウド プロバイダーによって抑制されました。
- 推奨事項 : クラウド プロバイダーのクラウド ストレージ要求制限を増やすには、管理者に問い合わせてください。
冗長な集計
- 集計処理によってクエリ結果は変更されませんでした。
- 推奨事項 :集計を削除するか、主キーと外部キーの制約を適用してください。
選択結合
- 結合処理は、読み込んだ行数よりも大幅に少ない行数を生成している。
- 推奨事項 :必要な結果サブセットを特定し、結合の前にフィルターを追加して入力行数を削減してください。
ワイドプロジェクション
- テーブル上のすべての列を投影します。
- 推奨事項 :必要な結果サブセットを特定し、必要な列のみを投影することで、読み込むバイト数を削減します。