メインコンテンツまでスキップ

hll_sketch_agg

集計関数: lgConfigK 引数で構成された Datasketches HllSketch の更新可能なバイナリ表現を返します。

構文

Python
from pyspark.sql import functions as sf

sf.hll_sketch_agg(col, lgConfigK=None)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または文字列

集計する列。

lgConfigK

pyspark.sql.Column または int(オプション)

K の 2 を底とする対数。ここで、K は HllSketch のバケットまたはスロットの数です。

戻り値

pyspark.sql.Column: HllSketch のバイナリ表現。

例1 : デフォルトのlgConfigKでHLLスケッチを作成する

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value"))).show()
Output
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+

例2 : 指定されたlgConfigKでHLLスケッチを作成する

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value", 12))).show()
Output
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+