Pular para o conteúdo principal

theta_union_agg

Função agregada: retorna a representação binária compacta do Datasketches ThetaSketch que é a união dos sketches Theta na coluna de entrada.

Sintaxe

Python
from pyspark.databricks.sql import functions as dbf

dbf.theta_union_agg(col=<col>, lgNomEntries=<lgNomEntries>)

Parâmetros

Parâmetro

Tipo

Descrição

col

pyspark.sql.Column ou nome da coluna

A coluna que contém os esboços de Theta para a união.

lgNomEntries

pyspark.sql.Column ou int, opcional

O logna base 2 das entradas nominais para as operações de união (deve estar entre 4 e 26, o padrão é 12).

Devoluções

pyspark.sql.ColumnRepresentação binária da fusão ThetaSketch.

Exemplos

Python
from pyspark.databricks.sql import functions as dbf
df1 = spark.createDataFrame([1,2,2,3], "INT")
df1 = df1.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df2 = spark.createDataFrame([4,5,5,6], "INT")
df2 = df2.agg(dbf.theta_sketch_agg("value").alias("sketch"))
df3 = df1.union(df2)
df3.agg(dbf.theta_sketch_estimate(dbf.theta_union_agg("sketch"))).show()
Output
+--------------------------------------------------+
|theta_sketch_estimate(theta_union_agg(sketch, 12))|
+--------------------------------------------------+
| 6|
+--------------------------------------------------+