resumo
Calcular estatísticas específicas para colunas numéricas e de texto. As estatísticas disponíveis são: contagem, média, desvio padrão, mínimo, máximo e percentis aproximados arbitrários especificados como uma porcentagem (por exemplo, 75%).
Sintaxe
summary(*statistics: str)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
| str, opcional | Nomes das colunas para calcular as estatísticas (default Todas as colunas). |
Devoluções
DataFrameUm novo DataFrame que fornece estatísticas para o DataFrame fornecido.
Notas
Esta função destina-se à análise exploratória de dados, uma vez que não garantimos a compatibilidade retroativa do esquema do DataFrame resultante.
Exemplos
Python
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 50%| 12| 40.3| 142.3|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+
df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# | count| 3| 3| 3|
# | min| 11| 37.8| 142.2|
# | 25%| 11| 37.8| 142.2|
# | 75%| 13| 44.1| 150.5|
# | max| 13| 44.1| 150.5|
# +-------+---+------+------+