máximo por
Retorna o valor do parâmetro col que está associado ao valor máximo do parâmetro ord. Essa função é frequentemente usada para encontrar o valor do parâmetro col correspondente ao valor máximo do parâmetro ord dentro de cada grupo quando usada com groupBy(). A função não é determinística, portanto a ordem de saída pode ser diferente para valores de col iguais.
Sintaxe
from pyspark.sql import functions as sf
sf.max_by(col, ord)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| A coluna que representa os valores a serem retornados. Isso pode ser a instância da coluna ou o nome da coluna como strings. |
|
| A coluna que precisa ser maximizada. Isso pode ser a instância da coluna ou o nome da coluna como strings. |
Devoluções
pyspark.sql.Column: Um objeto de coluna representando o valor de col que está associado ao valor máximo de ord.
Exemplos
Exemplo 1 : Usando max_by com groupBy
import pyspark.sql.functions as sf
df = spark.createDataFrame([
("Java", 2012, 20000), ("dotNET", 2012, 5000),
("dotNET", 2013, 48000), ("Java", 2013, 30000)],
schema=("course", "year", "earnings"))
df.groupby("course").agg(sf.max_by("year", "earnings")).sort("course").show()
+------+----------------------+
|course|max_by(year, earnings)|
+------+----------------------+
| Java| 2013|
|dotNET| 2013|
+------+----------------------+
Exemplo 2 : Usando max_by com diferentes tipos de dados
import pyspark.sql.functions as sf
df = spark.createDataFrame([
("Marketing", "Anna", 4), ("IT", "Bob", 2),
("IT", "Charlie", 3), ("Marketing", "David", 1)],
schema=("department", "name", "years_in_dept"))
df.groupby("department").agg(
sf.max_by("name", "years_in_dept")
).sort("department").show()
+----------+---------------------------+
|department|max_by(name, years_in_dept)|
+----------+---------------------------+
| IT| Charlie|
| Marketing| Anna|
+----------+---------------------------+
Exemplo 3 : Usando max_by onde ord possui múltiplos valores máximos
import pyspark.sql.functions as sf
df = spark.createDataFrame([
("Consult", "Eva", 6), ("Finance", "Frank", 5),
("Finance", "George", 9), ("Consult", "Henry", 7)],
schema=("department", "name", "years_in_dept"))
df.groupby("department").agg(
sf.max_by("name", "years_in_dept")
).sort("department").show()
+----------+---------------------------+
|department|max_by(name, years_in_dept)|
+----------+---------------------------+
| Consult| Henry|
| Finance| George|
+----------+---------------------------+