Pular para o conteúdo principal

spark_partition_id

Uma coluna para o ID da partição.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.spark_partition_id()

Devoluções

pyspark.sql.Column: ID da partição à qual o registro pertence.

Exemplos

Exemplo 1 : Obter o ID da partição para cada linha

Python
from pyspark.sql import functions as sf
spark.range(10, numPartitions=5).select("*", sf.spark_partition_id()).show()
Output
+---+--------------------+
| id|SPARK_PARTITION_ID()|
+---+--------------------+
| 0| 0|
| 1| 0|
| 2| 1|
| 3| 1|
| 4| 2|
| 5| 2|
| 6| 3|
| 7| 3|
| 8| 4|
| 9| 4|
+---+--------------------+