hll_sketch_agg
集計関数: lgConfigK 引数で構成された Datasketches HllSketch の更新可能なバイナリ表現を返します。
構文
Python
from pyspark.sql import functions as sf
sf.hll_sketch_agg(col, lgConfigK=None)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| 集計する列。 |
|
| K の 2 を底とする対数。ここで、K は HllSketch のバケットまたはスロットの数です。 |
戻り値
pyspark.sql.Column: HllSketch のバイナリ表現。
例
例1 : デフォルトのlgConfigKでHLLスケッチを作成する
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value"))).show()
Output
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+
例2 : 指定されたlgConfigKでHLLスケッチを作成する
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value", 12))).show()
Output
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+