メインコンテンツまでスキップ

グループ化

集計関数: Group BY リスト内の指定された列が集計されているかどうかを示し、結果セットで集計されている場合は 1 を返し、集計されていない場合は 0 を返します。

構文

Python
from pyspark.sql import functions as sf

sf.grouping(col)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または文字列

集計されているかどうかを確認する列。

戻り値

pyspark.sql.Column: 結果セットで集計されている場合は 1 を返し、集計されていない場合は 0 を返します。

例1 : キューブ操作におけるグループ化の状態を確認する

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", 2), ("Bob", 5)], ("name", "age"))
df.cube("name").agg(sf.grouping("name"), sf.sum("age")).orderBy("name").show()
Output
+-----+--------------+--------+
| name|grouping(name)|sum(age)|
+-----+--------------+--------+
| NULL| 1| 7|
|Alice| 0| 2|
| Bob| 0| 5|
+-----+--------------+--------+