データファイルのレイアウトを最適化する

OPTIMIZEコマンドは、Delta LakeおよびApache Icebergテーブルの両方において、データレイアウトを改善するためにデータファイルを書き換えます。リキッドクラスタリングが有効になっているテーブルの場合、 OPTIMIZE はデータファイルをリキッドクラスタリングキーでグループ化するように書き換えます。パーティションが定義されているテーブルの場合、ファイルの圧縮とデータ・レイアウトはパーティション内で実行されます。

予測的最適化は on Unity Catalog マネージドテーブルに対して自動的に OPTIMIZE を実行します。Databricks では、すべての Unity Catalog マネージドテーブルに対して予測的最適化を有効にして、データのメンテナンスを簡素化し、ストレージコストを削減することをお勧めします。 Unity Catalog マネージドテーブルの予測的最適化を参照してください。

リキッドクラスタリングなしのDelta Lakeテーブルは、書き換え時のデータクラスタリングを改善するために、オプションでZORDER BY句を含めることができます。Apache Icebergテーブルは、ZORDERの代わりにクラスターおよびソート戦略を使用します。Databricksは、パーティション、ZORDER、またはその他のデータレイアウトのアプローチの代わりにリキッドクラスタリングを使用することをお勧めします。

See OPTIMIZE.

重要

Databricks Runtime 16.0 以降では、OPTIMIZE FULL を使用して、リキッドクラスタリングが有効になっているテーブルの再クラスタリングを強制できます。「再クラスタリングの強制」を参照してください。

構文例

コンパクションをトリガーするには、OPTIMIZEコマンドを実行します。

SQL
Python
Scala

SQL
OPTIMIZE table_name

Python DeltaTable API は Delta Lake に固有です。

Python
from delta.tables import *
deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().executeCompaction()

Scala DeltaTable API は Delta Lake に特化したものです。

Scala
import io.delta.tables._
val deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().executeCompaction()

膨大なデータがあり、そのうちの一部だけを最適化したい場合は、WHERE を使ってオプションのパーティション述語を指定します。

SQL
Python
Scala

SQL
OPTIMIZE table_name WHERE date >= '2022-11-18'

Python DeltaTable API は Delta Lake に固有です。

Python
from delta.tables import *
deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().where("date='2021-11-18'").executeCompaction()

Scala DeltaTable API は Delta Lake に特化したものです。

Scala
import io.delta.tables._
val deltaTable = DeltaTable.forName(spark, "table_name")
deltaTable.optimize().where("date='2021-11-18'").executeCompaction()

bin-packingに関する以下の情報を検討してください。

ビンパッキング最適化は べき等 であり、同じデータセットで 2 回実行された場合、2 回目の実行は効果がありません。
bin-packing は、ストレージ内のサイズに関して均等にバランスの取れたデータファイルを生成することを目指していますが、必ずしもファイルあたりのタプル数によってではありません。ただし、2つの尺度は相関関係にあることが多いです。

Delta Lake テーブルのリーダーはスナップショット分離を使用します。つまり、 OPTIMIZE がトランザクションログから不要なファイルを削除しても、中断されません。OPTIMIZE はテーブルにデータ関連の変更を行わないため、OPTIMIZE の前後で読み取っても同じ結果になります。ストリーミングソースであるテーブルでOPTIMIZEを実行しても、このテーブルをソースとして扱う現在または将来のストリームには影響しません。

OPTIMIZE 操作によって削除されたファイルと追加されたファイルのファイル統計（最小、最大、合計など）を返します。最適化統計には、Z-Ordering 統計、バッチ数、最適化されたパーティションも含まれます。

また、自動圧縮を使用して、小さなファイルを自動的に圧縮することもできます。「自動圧縮」を参照してください。

推奨実行頻度 `OPTIMIZE`

Unity Catalog マネージドテーブルの予測的最適化を有効にすると、費用対効果が高い場合にOPTIMIZEが自動的に実行されるようになります。

OPTIMIZE を実行する頻度を選択する際には、パフォーマンスとコストの間でトレードオフがあります。エンドユーザーのクエリパフォーマンスを向上させるため、OPTIMIZEをより頻繁に実行してください。リソース使用量が増加するため、より高額な費用が発生します。コスト最適化のため、頻度を減らして実行してください。

Databricksは、OPTIMIZEを毎日（スポット価格が低い夜間が望ましい）実行することから始め、コストとパフォーマンスのトレードオフのバランスをとるように頻度を調整することをお勧めします。

推奨されるインスタンスタイプ： `OPTIMIZE`

両方の操作は、大量のParquetデコードとエンコードを伴うCPU負荷の高い操作です。

Databricksでは、**コンピュートに最適化された**インスタンスタイプを推奨しています。OPTIMIZEもアタッチされたSSDの恩恵を受けます。

構文例​

推奨実行頻度 OPTIMIZE​

推奨されるインスタンスタイプ： OPTIMIZE​

構文例

推奨実行頻度 `OPTIMIZE`

推奨されるインスタンスタイプ： `OPTIMIZE`