メインコンテンツまでスキップ

シータスケッチアグ

集計関数: lgNomEntries 名目エントリで構成された入力列の値を使用して、Datasketches ThetaSketch のコンパクトなバイナリ表現を返します。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.theta_sketch_agg(col=<col>, lgNomEntries=<lgNomEntries>)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または列名

集計する値を含む列。

lgNomEntries

pyspark.sql.Column またはint (オプション)

公称エントリの 2 を底とする対数。公称エントリはスケッチのサイズです (4 から 26 の間でなければなりませんが、デフォルトは 12 です)。

戻り値

pyspark.sql.Column: ThetaSketch のバイナリ表現。

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(dbf.theta_sketch_estimate(dbf.theta_sketch_agg("value"))).show()
Output
+--------------------------------------------------+
|theta_sketch_estimate(theta_sketch_agg(value, 12))|
+--------------------------------------------------+
| 3|
+--------------------------------------------------+
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(dbf.theta_sketch_estimate(dbf.theta_sketch_agg("value", 15))).show()
Output
+--------------------------------------------------+
|theta_sketch_estimate(theta_sketch_agg(value, 15))|
+--------------------------------------------------+
| 3|
+--------------------------------------------------+