ヒストグラム数値
nb ビンを使用して数値 'col' のヒストグラムを計算します。 戻り値は、ヒストグラムのビンの中心を表す (x,y) ペアの配列です。「nb」の値が大きくなると、ヒストグラムの近似はより細かくなりますが、外れ値の周囲にアーティファクトが発生する可能性があります。実際には、20 ~ 40 個のヒストグラム ビンが適切に機能しているように見えますが、偏ったデータセットや小さいデータセットの場合は、より多くのビンが必要になります。この関数は、不均一なビン幅を持つヒストグラムを作成することに注意してください。ヒストグラムの平均二乗誤差に関しては保証はありませんが、実際には R/S-Plus 統計計算パッケージによって生成されるヒストグラムに匹敵します。注: 戻り値の 'x' フィールドの出力タイプは、集計関数で使用される入力値から伝播されます。
構文
Python
from pyspark.sql import functions as sf
sf.histogram_numeric(col, nBins)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| 取り組むターゲットカラム。 |
|
| ヒストグラムの列数。 |
戻り値
pyspark.sql.Column: nb ビンを使用した数値「col」のヒストグラム。
例
例 1 : 5 つのビンを使用したコンピュート ヒストグラム
Python
from pyspark.sql import functions as sf
df = spark.range(100, numPartitions=1)
df.select(sf.histogram_numeric('id', sf.lit(5))).show(truncate=False)
Output
+-----------------------------------------------------------+
|histogram_numeric(id, 5) |
+-----------------------------------------------------------+
|[{11, 25.0}, {36, 24.0}, {59, 23.0}, {84, 25.0}, {98, 3.0}]|
+-----------------------------------------------------------+