Pular para o conteúdo principal

theta_sketch_agg

Função agregada: retorna a representação binária compacta do Datasketches ThetaSketch com os valores na coluna de entrada configurada com lgNomEntries entradas nominais.

Sintaxe

Python
from pyspark.databricks.sql import functions as dbf

dbf.theta_sketch_agg(col=<col>, lgNomEntries=<lgNomEntries>)

Parâmetros

Parâmetro

Tipo

Descrição

col

pyspark.sql.Column ou nome da coluna

A coluna que contém os valores a serem agregados.

lgNomEntries

pyspark.sql.Column ou int, opcional

O logna base 2 das entradas nominais, onde entradas nominais é o tamanho do esboço (deve estar entre 4 e 26, o padrão é 12).

Devoluções

pyspark.sql.Column: A representação binária do ThetaSketch.

Exemplos

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(dbf.theta_sketch_estimate(dbf.theta_sketch_agg("value"))).show()
Output
+--------------------------------------------------+
|theta_sketch_estimate(theta_sketch_agg(value, 12))|
+--------------------------------------------------+
| 3|
+--------------------------------------------------+
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(dbf.theta_sketch_estimate(dbf.theta_sketch_agg("value", 15))).show()
Output
+--------------------------------------------------+
|theta_sketch_estimate(theta_sketch_agg(value, 15))|
+--------------------------------------------------+
| 3|
+--------------------------------------------------+