diferença_theta
Retorna a diferença entre dois conjuntos de representações binárias de objetos Datasketches ThetaSketch (elementos presentes no primeiro esboço, mas não no segundo), utilizando um objeto Datasketches ANotB.
Sintaxe
Python
from pyspark.sql import functions as sf
sf.theta_difference(col1, col2)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| O primeiro esboço de Theta. |
|
| O segundo esboço de Theta. |
Devoluções
pyspark.sql.ColumnRepresentação binária da diferença ThetaSketch.
Exemplos
Exemplo 1 : Obtenha a diferença entre dois esboços Theta
Python
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
sf.theta_sketch_agg("v1").alias("sketch1"),
sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
Output
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
| 3|
+---------------------------------------------------------+