persistir

Define o nível de armazenamento para persistir o conteúdo do DataFrame entre operações após a primeira vez que ele é computado. Isso só pode ser usado para atribuir um novo nível de armazenamento se o DataFrame ainda não tiver um nível de armazenamento definido. Se nenhum nível de armazenamento for especificado, o padrão será (MEMORY_AND_DISK_DESER).

Sintaxe

persist(storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_DESER)

Parâmetros

Parâmetro	Tipo	Descrição
`storageLevel`	Nível de armazenamento	Nível de armazenamento a ser definido para persistência. O valor padrão é MEMORY_AND_DISK_DESER.

Devoluções

DataFrame: DataFrame persistente.

Notas

O nível de armazenamento default foi alterado para MEMORY_AND_DISK_DESER para corresponder Scala na versão 3.0.

Os dados em cache são compartilhados entre todas as sessões do Spark no cluster.

Exemplos

:::note Compatibilidade Serverless

O Databricks recomenda abandonar o DataFrame.persist(), pois não é compatível com a arquitetura de computação serverless do Databricks. Materialize os resultados intermediários em uma tabela Delta se a reutilização for cara.

:::

Python
df = spark.range(1)
df.persist()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...

from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
# DataFrame[id: bigint]

Sintaxe​

Parâmetros​

Devoluções​

Notas​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Notas

Exemplos