キャッシュ
DataFrameまだストレージ レベル ( MEMORY_AND_DISK_DESER ) で永続化します。
構文
cache()
戻り値
DataFrame: キャッシュされたDataFrame 。
注意
デフォルトのストレージレベルが、Scala 3.0に合わせてMEMORY_AND_DISK_DESERに変更されました。
キャッシュされたデータは、クラスター上のすべてのSparkセッション間で共有されます。
例
Python
df = spark.range(1)
df.cache()
# DataFrame[id: bigint]
df.explain()
# == Physical Plan ==
# InMemoryTableScan ...