agruparPor

Agrupa o DataFrame pelas colunas especificadas para que a agregação possa ser realizada nelas. Consulte GroupedData para todas as funções agregadas disponíveis.

Sintaxe

groupBy(*cols: "ColumnOrNameOrOrdinal")

Parâmetros

Parâmetro	Tipo	Descrição
`cols`	lista, string, inteiro ou coluna	As colunas pelas quais agrupar. Cada elemento pode ser um nome de coluna (strings), uma expressão (Column), um número ordinal de coluna (int, baseado em 1) ou uma lista deles.

Parâmetro	Tipo	Descrição
`cols`	lista, string, inteiro ou coluna	As colunas pelas quais agrupar. Cada elemento pode ser um nome de coluna (strings), uma expressão (Column), um número ordinal de coluna (int, baseado em 1) ou uma lista deles.

Devoluções

GroupedDataUm objeto GroupedData que representa os dados agrupados pelas colunas especificadas.

Notas

Um ordinal de coluna começa em 1, o que é diferente de __getitem__ baseado em 0.

Exemplos

Python
df = spark.createDataFrame([
    ("Alice", 2), ("Bob", 2), ("Bob", 2), ("Bob", 5)], schema=["name", "age"])

df.groupBy().avg().show()
# +--------+
# |avg(age)|
# +--------+
# |    2.75|
# +--------+

df.groupBy("name").agg({"age": "sum"}).sort("name").show()
# +-----+--------+
# | name|sum(age)|
# +-----+--------+
# |Alice|       2|
# |  Bob|       9|
# +-----+--------+

df.groupBy(df.name).max().sort("name").show()
# +-----+--------+
# | name|max(age)|
# +-----+--------+
# |Alice|       2|
# |  Bob|       5|
# +-----+--------+

df.groupBy(["name", df.age]).count().sort("name", "age").show()
# +-----+---+-----+
# | name|age|count|
# +-----+---+-----+
# |Alice|  2|    1|
# |  Bob|  2|    2|
# |  Bob|  5|    1|
# +-----+---+-----+

Sintaxe​

Parâmetros​

Devoluções​

Notas​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Notas

Exemplos