contagem_distinta
Retorna uma nova coluna para a contagem distinta de col ou cols.
Sintaxe
Python
from pyspark.sql import functions as sf
sf.count_distinct(col, *cols)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| Primeira coluna a ser usada para compute . |
|
| Outras colunas para compute . |
Devoluções
pyspark.sql.Column: valores distintos dessas duas colunas.
Exemplos
Exemplo 1 : Contagem de valores distintos de uma única coluna
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(sf.count_distinct(df.value)).show()
Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+
Exemplo 2 : Contagem de valores distintos em múltiplas colunas
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct(df.value1, df.value2)).show()
Output
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
| 2|
+------------------------------+
Exemplo 3 : Contagem de valores distintos com nomes de coluna como strings
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1), (1, 2)], ["value1", "value2"])
df.select(sf.count_distinct("value1", "value2")).show()
Output
+------------------------------+
|count(DISTINCT value1, value2)|
+------------------------------+
| 2|
+------------------------------+