Pular para o conteúdo principal

esboço_hll_agg

Função agregada: retorna a representação binária atualizável do Datasketches HllSketch configurado com o argumento lgConfigK.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.hll_sketch_agg(col, lgConfigK=None)

Parâmetros

Parâmetro

Tipo

Descrição

col

pyspark.sql.Column ou str

A coluna a ser agregada.

lgConfigK

pyspark.sql.Column ou int, opcional

O logna base 2 de K, onde K é o número de buckets ou slots para o HllSketch.

Devoluções

pyspark.sql.Column: A representação binária do HllSketch.

Exemplos

Exemplo 1 : Criar esboço HLL com lgConfigK default

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value"))).show()
Output
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+

Exemplo 2 : Criar esboço HLL com lgConfigK especificado

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([1,2,2,3], "INT")
df.agg(sf.hll_sketch_estimate(sf.hll_sketch_agg("value", 12))).show()
Output
+----------------------------------------------+
|hll_sketch_estimate(hll_sketch_agg(value, 12))|
+----------------------------------------------+
| 3|
+----------------------------------------------+