soma_distinta
Função agregada: retorna a soma dos valores distintos na expressão.
Sintaxe
Python
from pyspark.sql import functions as sf
sf.sum_distinct(col)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| coluna de destino para compute . |
Devoluções
pyspark.sql.Column: a coluna para resultados de cálculo.
Exemplos
Exemplo 1 : Usando a função sum_distinct em uma coluna com todos os valores distintos.
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 10|
+---------------------+
Exemplo 2 : Usando a função sum_distinct em uma coluna sem valores distintos
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 1|
+---------------------+
Exemplo 3 : Usando a função sum_distinct em uma coluna com valores nulos e duplicados.
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 3|
+---------------------+