最大

グループ内の式の最大値を返します。計算中は null 値は無視されます。NaN 値は他のどの数値よりも大きくなります。

構文

Python
from pyspark.sql import functions as sf

sf.max(col)

パラメーター

パラメーター	Type	説明
`col`	`pyspark.sql.Column` または列名	最大値がコンピュートとなるターゲットカラム。

戻り値

pyspark.sql.Column: 最大値コンピュートを含む列。

例

例 1 : 数値列の最大値を計算する

Python
import pyspark.sql.functions as sf
df = spark.range(10)
df.select(sf.max(df.id)).show()

Output
+-------+
|max(id)|
+-------+
|      9|
+-------+

例 2 : 文字列列の最大値を計算する

Python
import pyspark.sql.functions as sf
df = spark.createDataFrame([("A",), ("B",), ("C",)], ["value"])
df.select(sf.max(df.value)).show()

Output
+----------+
|max(value)|
+----------+
|         C|
+----------+

例 3 : グループ化されたDataFrame内の列の最大値を計算する

Python
import pyspark.sql.functions as sf
df = spark.createDataFrame([("A", 1), ("A", 2), ("B", 3), ("B", 4)], ["key", "value"])
df.groupBy("key").agg(sf.max(df.value)).show()

Output
+---+----------+
|key|max(value)|
+---+----------+
|  A|         2|
|  B|         4|
+---+----------+

例 4 : グループ化されたDataFrame内の複数の列の最大値を計算する

Python
import pyspark.sql.functions as sf
df = spark.createDataFrame(
    [("A", 1, 2), ("A", 2, 3), ("B", 3, 4), ("B", 4, 5)], ["key", "value1", "value2"])
df.groupBy("key").agg(sf.max("value1"), sf.max("value2")).show()

Output
+---+-----------+-----------+
|key|max(value1)|max(value2)|
+---+-----------+-----------+
|  A|          2|          3|
|  B|          4|          5|
+---+-----------+-----------+

例 5 : NULL 値を含む列の最大値を計算する

Python
import pyspark.sql.functions as sf
df = spark.createDataFrame([(1,), (2,), (None,)], ["value"])
df.select(sf.max(df.value)).show()

Output
+----------+
|max(value)|
+----------+
|         2|
+----------+

例 6 : "NaN" 値を含む列の最大値を計算する

Python
import pyspark.sql.functions as sf
df = spark.createDataFrame([(1.1,), (float("nan"),), (3.3,)], ["value"])
df.select(sf.max(df.value)).show()

Output
+----------+
|max(value)|
+----------+
|       NaN|
+----------+

構文​

パラメーター​

戻り値​

例​

構文

パラメーター

戻り値

例