resumo

Calcular estatísticas específicas para colunas numéricas e de texto. As estatísticas disponíveis são: contagem, média, desvio padrão, mínimo, máximo e percentis aproximados arbitrários especificados como uma porcentagem (por exemplo, 75%).

Sintaxe

summary(*statistics: str)

Parâmetros

Parâmetro	Tipo	Descrição
`statistics`	str, opcional	Nomes das colunas para calcular as estatísticas (default Todas as colunas).

Devoluções

DataFrameUm novo DataFrame que fornece estatísticas para o DataFrame fornecido.

Notas

Esta função destina-se à análise exploratória de dados, uma vez que não garantimos a compatibilidade retroativa do esquema do DataFrame resultante.

Exemplos

Python
df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    25%|  11|              37.8|            142.2|
# |    50%|  12|              40.3|            142.3|
# |    75%|  13|              44.1|            150.5|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+

df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# |  count|  3|     3|     3|
# |    min| 11|  37.8| 142.2|
# |    25%| 11|  37.8| 142.2|
# |    75%| 13|  44.1| 150.5|
# |    max| 13|  44.1| 150.5|
# +-------+---+------+------+

Sintaxe​

Parâmetros​

Devoluções​

Notas​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Notas

Exemplos