número_da_linha
Função de janela: retorna um número sequencial começando em 1 dentro de uma partição de janela.
Sintaxe
Python
from pyspark.sql import functions as sf
sf.row_number()
Parâmetros
Esta função não recebe nenhum parâmetro.
Devoluções
pyspark.sql.Column: a coluna para calcular os números das linhas.
Exemplos
Python
from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.range(3)
w = Window.orderBy(df.id.desc())
df.withColumn("desc_order", sf.row_number().over(w)).show()
Output
+---+----------+
| id|desc_order|
+---+----------+
| 2| 1|
| 1| 2|
| 0| 3|
+---+----------+