repartiçãoPorID
Retorna um novo DataFrame particionado pelas expressões de particionamento fornecidas. O DataFrame resultante é particionado por identificador de coluna.
Sintaxe
repartitionById(numPartitions: int, *cols: "ColumnOrName")
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
| int | o número alvo de partições. |
| str ou Coluna | colunas de particionamento. |
Devoluções
DataFrame: DataFrame reparticionado.
Notas
Pelo menos uma expressão de particionamento deve ser especificada. Isso é semelhante ao reparticionamento na distribuição, mas preserva a ordem das linhas dentro de cada partição.
Esta é uma API experimental.
Exemplos
Python
from pyspark.sql import functions as sf
spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
["age", "name"]
).repartitionById(2, "name").select(
"age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14| Tom| 0|
# | 23|Alice| 1|
# | 18|Alice| 1|
# | 21|Alice| 1|
# | 16| Bob| 0|
# +---+-----+--------------------+