repartiçãoPorID

Retorna um novo DataFrame particionado pelas expressões de particionamento fornecidas. O DataFrame resultante é particionado por identificador de coluna.

Sintaxe

repartitionById(numPartitions: int, *cols: "ColumnOrName")

Parâmetros

Parâmetro	Tipo	Descrição
`numPartitions`	int	o número alvo de partições.
`cols`	str ou Coluna	colunas de particionamento.

Devoluções

DataFrame: DataFrame reparticionado.

Notas

Pelo menos uma expressão de particionamento deve ser especificada. Isso é semelhante ao reparticionamento na distribuição, mas preserva a ordem das linhas dentro de cada partição.

Esta é uma API experimental.

Exemplos

Python
from pyspark.sql import functions as sf
spark.createDataFrame(
    [(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
    ["age", "name"]
).repartitionById(2, "name").select(
    "age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14|  Tom|                   0|
# | 23|Alice|                   1|
# | 18|Alice|                   1|
# | 21|Alice|                   1|
# | 16|  Bob|                   0|
# +---+-----+--------------------+

Sintaxe​

Parâmetros​

Devoluções​

Notas​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Notas

Exemplos