countDistinct
1 つまたは複数の列の個別のカウントの新しい列を返します。Spark Connect をサポートします。
count_distinctのエイリアスであり、 count_distinct直接使用することをお勧めします。
構文
Python
from pyspark.databricks.sql import functions as dbf
dbf.countDistinct(col=<col>, *cols)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| コンピュートする最初の列。 |
|
| 他の列をコンピュートします。 |
例
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()
Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()
Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
| 2|
+---------------------+