Pular para o conteúdo principal

cache

Persiste o DataFrame com o nível de armazenamento default (MEMORY_AND_DISK_DESER).

Sintaxe

cache()

Devoluções

DataFrame: DataFrame em cache.

Notas

O nível de armazenamento default foi alterado para MEMORY_AND_DISK_DESER para corresponder Scala na versão 3.0.

Os dados em cache são compartilhados entre todas as sessões do Spark no cluster.

Exemplos

Python
df = spark.range(1)
df.cache()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...