contagem distinta

Retorna uma nova coluna para a contagem distinta de col ou cols. Compatível com Spark Connect.

Um alias de count_distinct, e é encorajado usar count_distinct diretamente.

Sintaxe

Python
from pyspark.databricks.sql import functions as dbf

dbf.countDistinct(col=<col>, *cols)

Parâmetros

Parâmetro	Tipo	Descrição
`col`	`pyspark.sql.Column` ou nome da coluna	Primeira coluna a ser usada para compute .
`cols`	`pyspark.sql.Column` ou nome da coluna	Outras colunas para compute .

Exemplos

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()

Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()

Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

Sintaxe​

Parâmetros​

Exemplos​

Sintaxe

Parâmetros

Exemplos