メインコンテンツまでスキップ

countDistinct

1 つまたは複数の列の個別のカウントの新しい列を返します。Spark Connect をサポートします。

count_distinctのエイリアスであり、 count_distinct直接使用することをお勧めします。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.countDistinct(col=<col>, *cols)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または列名

コンピュートする最初の列。

cols

pyspark.sql.Column または列名

他の列をコンピュートします。

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()
Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()
Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+