min_by
ord の最小値に関連付けられている Col の値を返します。 この関数は、groupBy() と併用して、各グループ内の最小 ord 問題値に対応するcol 問題値を見つけるためによく使用されます。 この関数は非決定論的であるため、col の同じ値に関連付けられている出力順序が異なる場合があります。
構文
Python
from pyspark.sql import functions as sf
sf.min_by(col, ord)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| 返される値を表す列。これは列インスタンスまたは文字列としての列名になります。 |
|
| 最小化する必要がある列。これは列インスタンスまたは文字列としての列名になります。 |
戻り値
pyspark.sql.Column: ordの最小値に関連付けられたcolの値を表す列オブジェクト。
例
例1 : groupByでmin_byを使用する
Python
import pyspark.sql.functions as sf
df = spark.createDataFrame([
("Java", 2012, 20000), ("dotNET", 2012, 5000),
("dotNET", 2013, 48000), ("Java", 2013, 30000)],
schema=("course", "year", "earnings"))
df.groupby("course").agg(sf.min_by("year", "earnings")).sort("course").show()
Output
+------+----------------------+
|course|min_by(year, earnings)|
+------+----------------------+
| Java| 2012|
|dotNET| 2012|
+------+----------------------+
例2 : 異なるデータ型でmin_byを使用する
Python
import pyspark.sql.functions as sf
df = spark.createDataFrame([
("Marketing", "Anna", 4), ("IT", "Bob", 2),
("IT", "Charlie", 3), ("Marketing", "David", 1)],
schema=("department", "name", "years_in_dept"))
df.groupby("department").agg(
sf.min_by("name", "years_in_dept")
).sort("department").show()
Output
+----------+---------------------------+
|department|min_by(name, years_in_dept)|
+----------+---------------------------+
| IT| Bob|
| Marketing| David|
+----------+---------------------------+
例3 : ordに複数の最小値がある場合のmin_byの使用
Python
import pyspark.sql.functions as sf
df = spark.createDataFrame([
("Consult", "Eva", 6), ("Finance", "Frank", 5),
("Finance", "George", 9), ("Consult", "Henry", 7)],
schema=("department", "name", "years_in_dept"))
df.groupby("department").agg(
sf.min_by("name", "years_in_dept")
).sort("department").show()
Output
+----------+---------------------------+
|department|min_by(name, years_in_dept)|
+----------+---------------------------+
| Consult| Eva|
| Finance| Frank|
+----------+---------------------------+