Pular para o conteúdo principal

soma_distinta

Função agregada: retorna a soma dos valores distintos na expressão.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.sum_distinct(col)

Parâmetros

Parâmetro

Tipo

Descrição

col

pyspark.sql.Column ou str

coluna de destino para compute .

Devoluções

pyspark.sql.Column: a coluna para resultados de cálculo.

Exemplos

Exemplo 1 : Usando a função sum_distinct em uma coluna com todos os valores distintos.

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 10|
+---------------------+

Exemplo 2 : Usando a função sum_distinct em uma coluna sem valores distintos

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 1|
+---------------------+

Exemplo 3 : Usando a função sum_distinct em uma coluna com valores nulos e duplicados.

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
Output
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
| 3|
+---------------------+