contagem_distinta

Retorna uma nova coluna para a contagem distinta de col ou cols.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.count_distinct(col, *cols)

Parâmetros

Parâmetro	Tipo	Descrição
`col`	`pyspark.sql.Column` ou nome da coluna	Primeira coluna a ser usada para compute .
`cols`	`pyspark.sql.Column` ou nome da coluna	Outras colunas para compute .

Devoluções

pyspark.sql.Column: valores distintos dessas duas colunas.

Exemplos

Exemplo 1 : Contagem de valores distintos de uma única coluna

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(sf.count_distinct(df.value)).show()

Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

Exemplo 2 : Contagem de valores distintos em múltiplas colunas

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct(df.value1, df.value2)).show()

Output
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
|                             2|
+------------------------------+

Exemplo 3 : Contagem de valores distintos com nomes de coluna como strings

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct("value1", "value2")).show()

Output
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
|                             2|
+------------------------------+

Sintaxe​

Parâmetros​

Devoluções​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Exemplos