Pular para o conteúdo principal

agruparPor

Agrupa o DataFrame pelas colunas especificadas para que a agregação possa ser realizada nelas. Consulte GroupedData para todas as funções agregadas disponíveis.

Sintaxe

groupBy(*cols: "ColumnOrNameOrOrdinal")

Parâmetros

Parâmetro

Tipo

Descrição

cols

lista, string, inteiro ou coluna

As colunas pelas quais agrupar. Cada elemento pode ser um nome de coluna (strings), uma expressão (Column), um número ordinal de coluna (int, baseado em 1) ou uma lista deles.

Devoluções

GroupedDataUm objeto GroupedData que representa os dados agrupados pelas colunas especificadas.

Notas

Um ordinal de coluna começa em 1, o que é diferente de __getitem__ baseado em 0.

Exemplos

Python
df = spark.createDataFrame([
("Alice", 2), ("Bob", 2), ("Bob", 2), ("Bob", 5)], schema=["name", "age"])

df.groupBy().avg().show()
# +--------+
# |avg(age)|
# +--------+
# | 2.75|
# +--------+

df.groupBy("name").agg({"age": "sum"}).sort("name").show()
# +-----+--------+
# | name|sum(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 9|
# +-----+--------+

df.groupBy(df.name).max().sort("name").show()
# +-----+--------+
# | name|max(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 5|
# +-----+--------+

df.groupBy(["name", df.age]).count().sort("name", "age").show()
# +-----+---+-----+
# | name|age|count|
# +-----+---+-----+
# |Alice| 2| 1|
# | Bob| 2| 2|
# | Bob| 5| 1|
# +-----+---+-----+