Pular para o conteúdo principal

histograma_numérico

Calcule um histograma da coluna numérica usando nb intervalos. O valor retornado é uma matriz de pares (x,y) que representam os centros dos intervalos do histograma. À medida que o valor de 'nb' aumenta, a aproximação do histograma torna-se mais precisa, mas pode gerar artefatos em torno de valores discrepantes. Na prática, 20 a 40 intervalos de histograma parecem funcionar bem, sendo necessários mais intervalos para conjuntos de dados menores ou com distribuição assimétrica. Observe que esta função cria um histograma com larguras de intervalo não uniformes. Não oferece garantias em termos do erro quadrático médio do histograma, mas na prática é comparável aos histogramas produzidos pelo pacote de computação estatística R/S-Plus. Nota: o tipo de saída do campo 'x' no valor de retorno é propagado a partir do valor de entrada consumido na função de agregação.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.histogram_numeric(col, nBins)

Parâmetros

Parâmetro

Tipo

Descrição

col

pyspark.sql.Column ou str

coluna de destino para trabalhar.

nBins

pyspark.sql.Column

Número de colunas do histograma.

Devoluções

pyspark.sql.Column: um histograma da coluna numérica usando nb intervalos.

Exemplos

Exemplo 1 : calcular histograma com 5 intervalos

Python
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
Output
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+