メインコンテンツまでスキップ

kde

ガウスカーネルを使用してカーネル密度推定(KDE)プロットを生成します。

統計学において、カーネル密度推定は、確率変数の確率密度関数(PDF)を推定するためのノンパラメトリックな手法である。この関数はガウスカーネルを使用し、帯域幅の自動決定機能を備えています。

構文

kde(bw_method, column=None, ind=None, **kwargs)

パラメーター

パラメーター

Type

説明

bw_method

整数または浮動小数点数

推定器の帯域幅を計算するために使用される方法。詳細については、 PySparkのKernelDensity参照してください。

column

文字列または文字列のリスト(省略可能)

KDE プロットの作成に使用する列名または名前のリスト。 None (デフォルト値)の場合、すべての数値列が使用されます。

ind

float、NumPy配列、またはintのリスト(省略可能)

推定PDFの評価ポイント。None (デフォルト)の場合、1000個の等間隔の点が使用されます。NumPy配列の場合、KDEはそれらの点で評価されます。整数値の場合は、その数だけ等間隔に配置された点が使用されます。

**kwargs

オプション

追加のキーワード引数。

戻り値

plotly.graph_objs.Figure

Python
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)
このページの見出し