countDistinct

1 つまたは複数の列の個別のカウントの新しい列を返します。Spark Connect をサポートします。

count_distinctのエイリアスであり、 count_distinct直接使用することをお勧めします。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.countDistinct(col=<col>, *cols)

パラメーター

パラメーター	Type	説明
`col`	`pyspark.sql.Column` または列名	コンピュートする最初の列。
`cols`	`pyspark.sql.Column` または列名	他の列をコンピュートします。

例

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.count_distinct(df.value)).show()

Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([(1,), (1,), (3,)], ["value"])
df.select(dbf.countDistinct(df.value)).show()

Output
+---------------------+
|count(DISTINCT value)|
+---------------------+
|                    2|
+---------------------+

構文​

パラメーター​

例​

構文

パラメーター

例