データのスキップ

注記

Databricks Runtime 13.3 以降では、Databricks はテーブルレイアウトにリキッドクラスタリングを使用することをお勧めしています。クラスターは Z-Ordering と互換性がありません。「テーブルにリキッドクラスタリングを使用する」を参照してください。

Delta LakeまたはマネージドApache Icebergテーブルにデータを書き込むと、データスキップ統計が自動的に収集されます。Databricksは、クエリ時にファイルごとの統計情報（最小値と最大値、NULLカウント、および合計レコード）を使用して、関連性のないファイルをスキップし、クエリを高速化します。

ZORDER ステートメントで使用される列については、統計情報が収集されている必要があります。「 Z-ordering とは？」を参照してください。

統計列の指定

Unity Catalogの外部テーブルでは、デフォルトでテーブルスキーマに定義されている最初の32列の統計が収集されます。Unity Catalog のマネージドテーブルでは、ファイルスキップ統計は予測的最適化を使用してインテリジェントに選択され、32列の制限はありません。予測的最適化は、統計情報を収集するためのコマンドである ANALYZE を自動的に実行します。Databricks では、すべての Unity Catalog マネージドテーブルに対して予測的最適化を有効にして、データのメンテナンスを簡素化し、ストレージコストを削減することをお勧めします。Unity Catalog マネージドテーブルの予測的最適化を参照してください。

「予測的最適化」を使用していない場合は、統計情報収集を32列に制限する動作を、以下のテーブルプロパティのいずれかを設定することで変更できます。

テーブルプロパティ	Databricks Runtime はサポートされています	説明
`dataSkippingNumIndexedCols`	サポートされているすべての Databricks Runtime バージョン	統計情報が収集される列の数を増減します。列の順序によって異なります。
`dataSkippingStatsColumns`	Databricks Runtime 13.3 LTS以降	統計情報が収集される列名のリストを指定します。`dataSkippingNumIndexedCols`を置き換えます。

テーブルプロパティ	Databricks Runtime はサポートされています	説明
`dataSkippingNumIndexedCols`	サポートされているすべての Databricks Runtime バージョン	統計情報が収集される列の数を増減します。列の順序によって異なります。
`dataSkippingStatsColumns`	Databricks Runtime 13.3 LTS以降	統計情報が収集される列名のリストを指定します。`dataSkippingNumIndexedCols`を置き換えます。

テーブルのプロパティは、テーブルの作成時に設定するか、 ALTER TABLE ステートメントで設定できます。「テーブルプロパティリファレンス」を参照してください。次の例では、デフォルト stats コレクションの動作をオーバーライドして、名前付き列に stats コレクションを設定します。

Delta Lake table
Iceberg table

SQL
ALTER TABLE table_name SET TBLPROPERTIES('delta.dataSkippingStatsColumns' = 'col1, col2, col3')

SQL
ALTER TABLE table_name SET TBLPROPERTIES('iceberg.dataSkippingStatsColumns' = 'col1, col2, col3')

これらのプロパティを更新しても、既存のデータの統計が自動的に再計算されることはありません。むしろ、テーブル内のデータを追加または更新する際の今後の統計収集の挙動に影響を与えます。統計は、現在の統計列のリストに含まれていない列には使用されません。

Databricks Runtime 14.3 LTS以降で、テーブルプロパティを変更したか、統計のために指定された列を変更した場合、テーブルの統計の再計算を次のコマンドを使用して手動でトリガーできます。

SQL
ANALYZE TABLE table_name COMPUTE DELTA STATISTICS

注記

長い文字列は統計情報収集時に切り捨てられます。統計収集から長い文字列の列を除外することを選択できます。特に、列がクエリのフィルター処理に頻繁に使用されない場合は。

Z-ordering とは？

注記

Databricks では、すべての新しいテーブルにリキッドクラスタリングを使用することをお勧めします。ZORDERをリキッドクラスタリングと組み合わせて使用することはできません。「テーブルにリキッドクラスタリングを使用する」を参照してください。

Z-ordering は、関連する情報を同じファイルセットに同じ場所に配置する手法です。Databricks データスキップアルゴリズムは、この共局性を自動的に使用します。この動作は、読み取る必要があるデータの量を削減します。データをZ-order するには、ZORDER BY句で順序付けする列を指定します：

SQL
OPTIMIZE events
WHERE date >= current_timestamp() - INTERVAL 1 day
ZORDER BY (eventType)

列がクエリ述語で一般的に使用されることが予想され、その列のカーディナリティが高い（つまり、多数の個別の値がある）場合は、ZORDER BYを使用します。

ZORDER BYには、カンマ区切りのリストとして複数の列を指定できます。ただし、列が増えるごとに効果は低下します。

「Databricks」は、統計情報が収集されていない列に対してZORDER BY を使用しないことを推奨しています。なぜなら、それは効果がなく、不必要な「コンピュート」「リソース」を消費するからです。「データスキッピング」には、min、max、countなどの列ローカルの統計が必要です。スキーマの列の順序を変更することで、特定の列に対する統計情報収集を設定したり、統計情報を収集する列の数を増やしたりすることができます。

注記

Z-Ordering は べき等ではありませんが 、インクリメンタルな操作を目指しています。Z-Ordering にかかる時間は、複数回の実行で短縮されることは保証されていません。ただし、Z-orderedされたばかりのパーティションに新しいデータが追加されなかった場合、そのパーティションの別のZ-orderingは効果がありません。
Z-orderingは、タプルの数に関して均等にバランスの取れたデータファイルを生成することを目的としていますが、必ずしもストレージ内のデータサイズに関してではありません。ファイルサイズとタプルの数は相関関係にありますが、そうでない状況もあり、タスク時間の最適化に偏りが生じます。

ZORDER BY例えば、OPTIMIZE *日付* で、最新のレコードが過去のレコードよりはるかに幅が広い (長い配列や文字列値など) 場合、ジョブのタスク期間と結果のファイルサイズが偏る可能性があります。しかし、これはOPTIMIZEコマンド自体だけの問題であり、その後のクエリには悪影響がないと考えられます。

統計列の指定​

Z-ordering とは？​

統計列の指定

Z-ordering とは？