メインコンテンツまでスキップ

シータユニオンアグ

集計関数: 入力列の Theta スケッチの結合である Datasketches ThetaSketch のコンパクトなバイナリ表現を返します。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.theta_union_agg(col=<col>, lgNomEntries=<lgNomEntries>)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または列名

結合するシータ スケッチを含む列。

lgNomEntries

pyspark.sql.Column またはint (オプション)

結合演算の公称エントリの 2 を底とする対数 (4 から 26 までの範囲で指定する必要があり、デフォルトは 12)。

戻り値

pyspark.sql.Column: マージされた ThetaSketch のバイナリ表現。

Python
from pyspark.databricks.sql import functions as dbf
df1 = spark.createDataFrame([1,2,2,3], "INT")
df1 = df1.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df2 = spark.createDataFrame([4,5,5,6], "INT")
df2 = df2.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df3 = df1.union(df2)
df3.agg(dbf.theta_sketch_estimate(dbf.theta_union_agg("sketch"))).show()
Output
+--------------------------------------------------+
|theta_sketch_estimate(theta_union_agg(sketch, 12))|
+--------------------------------------------------+
| 6|
+--------------------------------------------------+