Pular para o conteúdo principal

percentil

Retorna o(s) percentil(is) exato(s) da coluna numérica expr na(s) porcentagem(ões) fornecida(s) com intervalo de valores em [0,0, 1,0].

Sintaxe

Python
from pyspark.sql import functions as sf

sf.percentile(col, percentage, frequency=1)

Parâmetros

Parâmetro

Tipo

Descrição

col

pyspark.sql.Column ou str

A coluna numérica.

percentage

pyspark.sql.Column, float, lista de floats ou tupla de floats

Porcentagem em decimal (deve estar entre 0,0 e 1,0).

frequency

pyspark.sql.Column ou int

Um valor numérico positivo que controla a frequência (default: 1).

Devoluções

pyspark.sql.Column: o valor exato percentile da coluna numérica.

Exemplos

Exemplo 1 : Calcular múltiplos percentis

Python
from pyspark.sql import functions as sf
key = (sf.col("id") % 3).alias("key")
value = (sf.randn(42) + key * 10).alias("value")
df = spark.range(0, 1000, 1, 1).select(key, value)
df.select(
sf.percentile("value", [0.25, 0.5, 0.75], sf.lit(1))
).show(truncate=False)
Output
+--------------------------------------------------------+
|percentile(value, array(0.25, 0.5, 0.75), 1) |
+--------------------------------------------------------+
|[0.7441991494121..., 9.9900713756..., 19.33740203080...]|
+--------------------------------------------------------+

Exemplo 2 : Calcular percentil por grupo

Python
from pyspark.sql import functions as sf
key = (sf.col("id") % 3).alias("key")
value = (sf.randn(42) + key * 10).alias("value")
df = spark.range(0, 1000, 1, 1).select(key, value)
df.groupBy("key").agg(
sf.percentile("value", sf.lit(0.5), sf.lit(1))
).sort("key").show()
Output
+---+-------------------------+
|key|percentile(value, 0.5, 1)|
+---+-------------------------+
| 0| -0.03449962216667...|
| 1| 9.990389751837...|
| 2| 19.967859769284...|
+---+-------------------------+