メインコンテンツまでスキップ

合計個別

集計関数: 式内の個別の値の合計を返します。

構文

Python
from pyspark.sql import functions as sf

sf.sum_distinct(col)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または文字列

ターゲットカラムをコンピュートに。

戻り値

pyspark.sql.Column: コンピュート結果の列。

例1 : すべての異なる値を持つ列にsum_distinct関数を使用する

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 10|
+---------------------+

例2 : 異なる値を持たない列にsum_distinct関数を使用する

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 1|
+---------------------+

例3 : null値と重複値を持つ列にsum_distinct関数を使用する

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 3|
+---------------------+