Pular para o conteúdo principal

ntil

Função de janela: retorna o ID do grupo ntile (de 1 a n inclusive) em uma partição de janela ordenada. Por exemplo, se n for 4, o primeiro quarto das linhas receberá o valor 1, o segundo quarto receberá 2, o terceiro quarto receberá 3 e o último quarto receberá 4.

Isso é equivalente à função NTILE em SQL.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.ntile(n)

Parâmetros

Parâmetro

Tipo

Descrição

n

int

Um número inteiro que especifica a quantidade de grupos em que a partição será dividida.

Devoluções

pyspark.sql.Column: ID do grupo dividido.

Exemplos

Python
from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.createDataFrame(
[("a", 1), ("a", 2), ("a", 3), ("b", 8), ("b", 2)], ["c1", "c2"])
df.show()
Output
+---+---+
| c1| c2|
+---+---+
| a| 1|
| a| 2|
| a| 3|
| b| 8|
| b| 2|
+---+---+
Python
w = Window.partitionBy("c1").orderBy("c2")
df.withColumn("ntile", sf.ntile(2).over(w)).show()
Output
+---+---+-----+
| c1| c2|ntile|
+---+---+-----+
| a| 1| 1|
| a| 2| 1|
| a| 3| 2|
| b| 2| 1|
| b| 8| 2|
+---+---+-----+