histograma_numérico
Calcule um histograma da coluna numérica usando nb intervalos. O valor retornado é uma matriz de pares (x,y) que representam os centros dos intervalos do histograma. À medida que o valor de 'nb' aumenta, a aproximação do histograma torna-se mais precisa, mas pode gerar artefatos em torno de valores discrepantes. Na prática, 20 a 40 intervalos de histograma parecem funcionar bem, sendo necessários mais intervalos para conjuntos de dados menores ou com distribuição assimétrica. Observe que esta função cria um histograma com larguras de intervalo não uniformes. Não oferece garantias em termos do erro quadrático médio do histograma, mas na prática é comparável aos histogramas produzidos pelo pacote de computação estatística R/S-Plus. Nota: o tipo de saída do campo 'x' no valor de retorno é propagado a partir do valor de entrada consumido na função de agregação.
Sintaxe
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| coluna de destino para trabalhar. |
|
| Número de colunas do histograma. |
Devoluções
pyspark.sql.Column: um histograma da coluna numérica usando nb intervalos.
Exemplos
Exemplo 1 : calcular histograma com 5 intervalos
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+