Pular para o conteúdo principal

contagem distinta

Retorna uma nova coluna para a contagem distinta de col ou cols. Compatível com Spark Connect.

Um alias de count_distinct, e é encorajado usar count_distinct diretamente.

Sintaxe

Python
from pyspark.databricks.sql import functions as dbf

dbf.countDistinct(col=<col>, *cols)

Parâmetros

Parâmetro

Tipo

Descrição

col

pyspark.sql.Column ou nome da coluna

Primeira coluna a ser usada para compute .

cols

pyspark.sql.Column ou nome da coluna

Outras colunas para compute .

Exemplos

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()
Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()
Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+