まとめ
コンピュートは、数値列と文字列列の統計を指定します。 利用可能な統計情報は、件数、平均値、標準偏差、最小値、最大値、およびパーセンテージで指定された任意の近似パーセンタイル(例:75%)です。
構文
summary(*statistics: str)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
| 文字列、オプション | 統計情報の計算に使用する列名(デフォルトは「すべての列」)。 |
戻り値
DataFrame: 指定されたDataFrameの統計情報を提供する新しいDataFrame 。
注意
この関数は探索的データ分析を目的としており、結果として得られるDataFrameのスキーマの後方互換性については保証しません。
例
Python
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 50%| 12| 40.3| 142.3|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+
df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# | count| 3| 3| 3|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+---+------+------+