Pular para o conteúdo principal

kde

Gera um gráfico de Estimativa de Densidade de Kernel (KDE) usando kernels Gaussianos.

Em estatística, a estimativa de densidade kernel é uma forma não paramétrica de estimar a função de densidade de probabilidade (PDF) de uma variável aleatória. Esta função utiliza kernels Gaussianos e inclui a determinação automática da largura de banda.

Sintaxe

kde(bw_method, column=None, ind=None, **kwargs)

Parâmetros

Parâmetro

Tipo

Descrição

bw_method

inteiro ou ponto flutuante

O método utilizado para calcular a largura de banda do estimador. Consulte KernelDensity no PySpark para obter mais informações.

column

string ou lista de strings, opcional

Nome da coluna ou lista de nomes a serem usados para criar o gráfico do KDE. Se None (default), todas as colunas numéricas serão usadas.

ind

lista de floats, arrays NumPy ou inteiros, opcional

Pontos de avaliação para a PDF estimada. Se None (default), 1000 pontos igualmente espaçados são usados. Se for um array NumPy, o KDE é avaliado nesses pontos. Se for um número inteiro, essa mesma quantidade de pontos igualmente espaçados será utilizada.

**kwargs

opcional

Argumentos de palavra-chave adicionais.

Devoluções

plotly.graph_objs.Figure

Exemplos

Python
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)