メインコンテンツまでスキップ

累積距離

ウィンドウ関数: ウィンドウパーティション内の値の累積分布、つまり現在の行の下にある行の割合を返します。

構文

Python
from pyspark.sql import functions as sf

sf.cume_dist()

パラメーター

この機能には問題はありません。

戻り値

pyspark.sql.Column: 累積分布を計算する列。

例

Python
from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.createDataFrame([1, 2, 3, 3, 4], "int")
w = Window.orderBy("value")
df.withColumn("cd", sf.cume_dist().over(w)).show()

Output
+-----+---+
|value| cd|
+-----+---+
|    1|0.2|
|    2|0.4|
|    3|0.8|
|    3|0.8|
|    4|1.0|
+-----+---+

このページの見出し

構文
パラメーター
戻り値
例