Databricks でのキャッシュによるパフォーマンスの最適化

Databricks は、ディスクキャッシュを使用して、高速な中間データ形式を使用してノードのローカルストレージにリモート Parquet データファイルのコピーを作成することで、データの読み取りを高速化します。データは、ファイルをリモートの場所からフェッチする必要があるたびに自動的にキャッシュされます。その後、同じデータの連続した読み取りがローカルで実行されるため、読み取り速度が大幅に向上します。キャッシュは、すべての Parquet データファイル (Delta Lake テーブルを含む) で機能します。

注記

SQLウェアハウスと Databricks Runtime 14.2 以降では、CACHE SELECT コマンドは無視されます。代わりに、拡張ディスク・キャッシング・アルゴリズムが使用されます。

Delta キャッシュの名前がディスクキャッシュに変更されました

Databricksのディスクキャッシュは、以前はDeltaキャッシュおよびDBIO キャッシュと呼ばれていました。ディスクキャッシュ動作はDatabricks独自の機能です。この名前の変更は、ディスクキャッシュがDelta Lakeプロトコルの一部であるという混乱を解決することを目的に成されたものです。

ディスクキャッシュとSparkキャッシュ

Databricks ディスクキャッシュは、Apache Spark キャッシュとは異なります。 Databricks では、自動ディスクキャッシュの使用をお勧めします。

次の表は、ワークフローに最適なツールを選択できるように、ディスクキャッシュとApache Sparkキャッシュの主な違いをまとめたものです。

機能	ディスクキャッシュ	Apache Sparkキャッシュ
保存形式	ワーカーノード上のローカルファイルとして保存されます。	メモリ内ブロックですが、ストレージレベルによって異なります。
適用対象	S3、ABFS、およびその他のファイルシステムに保存されているすべての Parquetテーブル。	任意のデータフレームまたはRDD。
トリガー	最初の読み取り時に自動的に実行されます（キャッシュが有効な場合）。	手動では、コードの変更が必要です。
評価	遅延評価	遅延評価
可用性	構成フラグを使用して有効または無効にすることができ、特定のノードタイプではデフォルトで有効になります。	いつでも利用可能です。
排除	LRU方式またはファイル変更時に自動で、クラスターの再起動時に手動で排除されます。	LRU方式では自動的に、`unpersist` では手動で排除されます。

ディスクキャッシュの一貫性

ディスクキャッシュは、データファイルが作成、削除、変更、または上書きされたことを自動的に検出し、それに応じてコンテンツを更新します。キャッシュされたデータを明示的に無効にすることなく、テーブルデータの書き込み、変更、削除を行うことができます。古いエントリは自動的に無効になり、キャッシュから削除されます。

ディスクキャッシングを使用するインスタンスタイプの選択

ディスクキャッシュを使用するための推奨される（最も簡単な）方法は、クラスターを構成する際にSSDボリュームを使用するワーカータイプを選択することです。このようなワーカーは、ディスクキャッシュ用に有効化および構成されています。

ディスクキャッシュは、ワーカーノードで提供されるローカル SSD で使用可能なスペースの最大半分を使用するように構成されています。構成オプションについては、「ディスクキャッシュの構成」を参照してください。

ディスクキャッシュの設定

Databricks では、コンピュートにキャッシュ高速化ワーカーインスタンスタイプを選択することをお勧めします。このようなインスタンスは、ディスクキャッシュに対して自動的に最適に構成されます。

注記

ワーカーが廃止されると、そのワーカーに保存されているSparkキャッシュは失われます。したがって、オートスケールが有効になっている場合はキャッシュが不安定になります。その後、Sparkは必要に応じてソースから不足しているパーティションを再読み込みする必要があります。

ディスク使用量の構成

ディスクキャッシュがワーカーノードのローカルストレージを使用する方法を構成するには、クラスターの作成時に次の Spark 構成設定を指定します。

spark.databricks.io.cache.maxDiskUsage：キャッシュされたデータ用に予約されているノードあたりのディスク容量（バイト単位）
spark.databricks.io.cache.maxMetaDataCache：キャッシュされたメタデータ用に予約されているノードあたりのディスク容量（バイト単位）
spark.databricks.io.cache.compression.enabled：キャッシュされたデータを圧縮形式で保存した場合

構成例：

ini
spark.databricks.io.cache.maxDiskUsage 50g
spark.databricks.io.cache.maxMetaDataCache 1g
spark.databricks.io.cache.compression.enabled false

ディスクキャッシュを有効または無効にします

ディスクキャッシュの現在の設定を確認するには、次のコマンドを実行します。

Scala
spark.conf.get("spark.databricks.io.cache.enabled")

ディスクキャッシュを有効または無効にするには、次のコマンドを実行します。

Scala
spark.conf.set("spark.databricks.io.cache.enabled", "[true | false]")

キャッシュを無効にしても、ローカルストレージにすでに存在するデータは削除されません。代わりに、クエリーによるキャッシュへの新しいデータの追加やキャッシュからのデータの読み取りを防止します。

Delta キャッシュ の名前が ディスクキャッシュ に変更されました​

ディスクキャッシュとSparkキャッシュ​

ディスクキャッシュの一貫性​

ディスクキャッシングを使用するインスタンスタイプの選択​

ディスクキャッシュの設定​

ディスク使用量の構成​

ディスクキャッシュを有効または無効にします​