グループ化されたデータ

DataFrame.groupByによって作成された、DataFrame の集計用のメソッドのセット。

Spark Connectをサポート

構文

Python
DataFrame.groupBy(*cols)

方法

手法	説明
`agg(*exprs)`	コンピュートは集計し、結果をDataFrameとして返します。列名を集計関数名にマッピングする辞書、または集計列式のリストを受け入れます。
`avg(*cols)`	グループごとの各数値列の平均値をコンピュートします。 `mean`は別名です。
`count()`	各グループのレコード数をカウントします。
`max(*cols)`	各グループの各数値列の最大値をコンピュートします。
`mean(*cols)`	グループごとの各数値列の平均値をコンピュートします。 `avg`は別名です。
`min(*cols)`	各グループの各数値列の最小値をコンピュートします。
`pivot(pivot_col, values)`	現在の DataFrame の列をピボットし、指定された集計を実行します。
`sum(*cols)`	各グループの各数値列の合計をコンピュートします。

例

Python
df = spark.createDataFrame(
    [(2, "Alice"), (3, "Alice"), (5, "Bob"), (10, "Bob")], ["age", "name"])
df.groupBy("name").count().sort("name").show()

Output
+-----+-----+
| name|count|
+-----+-----+
|Alice|    2|
|  Bob|    2|
+-----+-----+

Python
from pyspark.sql import functions as sf

df.groupBy("name").agg(sf.min("age")).sort("name").show()

Output
+-----+--------+
| name|min(age)|
+-----+--------+
|Alice|       2|
|  Bob|       5|
+-----+--------+

Python
df.groupBy("name").avg("age").sort("name").show()

Output
+-----+--------+
| name|avg(age)|
+-----+--------+
|Alice|     2.5|
|  Bob|     7.5|
+-----+--------+

Python
from pyspark.sql import Row

df1 = spark.createDataFrame([
    Row(course="dotNET", year=2012, earnings=10000),
    Row(course="Java", year=2012, earnings=20000),
    Row(course="dotNET", year=2013, earnings=48000),
    Row(course="Java", year=2013, earnings=30000),
])
df1.groupBy("year").pivot("course", ["dotNET", "Java"]).sum("earnings").sort("year").show()

Output
+----+------+-----+
|year|dotNET| Java|
+----+------+-----+
|2012| 10000|20000|
|2013| 48000|30000|
+----+------+-----+

構文​

方法​

例​

構文

方法

例