Pular para o conteúdo principal

diferença_theta

Retorna a diferença entre dois conjuntos de representações binárias de objetos Datasketches ThetaSketch (elementos presentes no primeiro esboço, mas não no segundo), utilizando um objeto Datasketches ANotB.

Sintaxe

Python
from pyspark.sql import functions as sf

sf.theta_difference(col1, col2)

Parâmetros

Parâmetro

Tipo

Descrição

col1

pyspark.sql.Column ou str

O primeiro esboço de Theta.

col2

pyspark.sql.Column ou str

O segundo esboço de Theta.

Devoluções

pyspark.sql.ColumnRepresentação binária da diferença ThetaSketch.

Exemplos

Exemplo 1 : Obtenha a diferença entre dois esboços Theta

Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
sf.theta_sketch_agg("v1").alias("sketch1"),
sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
Output
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
| 3|
+---------------------------------------------------------+