メインコンテンツまでスキップ

kll_merge_agg_bigint

集計関数: バイナリ KllLongsSketch 表現を結合し、結合されたスケッチを返します。オプションの k は、マージされたスケッチのサイズと精度を制御します (範囲 8 ~ 65535)。 k が指定されていない場合、マージされたスケッチは最初の入力スケッチの k 値を採用します。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.kll_merge_agg_bigint(col=<col>, k=<k>)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または列名

バイナリ KllLongsSketch 表現を含む列。

k

pyspark.sql.Column またはint (オプション)

サイズと精度を制御する k 問題 (範囲 8 ~ 65535)。

戻り値

pyspark.sql.Column: KllLongsSketch のマージされたバイナリ表現。

Python
from pyspark.databricks.sql import functions as dbf
df1 = spark.createDataFrame([1,2,3], "INT")
df2 = spark.createDataFrame([4,5,6], "INT")
sketch1 = df1.agg(dbf.kll_sketch_agg_bigint("value").alias("sketch"))
sketch2 = df2.agg(dbf.kll_sketch_agg_bigint("value").alias("sketch"))
merged = sketch1.union(sketch2).agg(dbf.kll_merge_agg_bigint("sketch").alias("merged"))
n = merged.select(dbf.kll_sketch_get_n_bigint("merged")).first()[0]
n
Output
6