メインコンテンツまでスキップ

ベクトルコサイン類似度

2つの浮動小数点ベクトル間のコサイン類似度を返します。ベクトルは同じ次元である必要があります。

対応するDatabricks SQL関数については、vector_cosine_similarity関数を参照してください。

構文

Python
from pyspark.sql import functions as dbf

dbf.vector_cosine_similarity(left=<left>, right=<right>)

パラメーター

パラメーター

Type

説明

left

pyspark.sql.Column または列名

最初のベクトル列。

right

pyspark.sql.Column または列名

2番目のベクトル列

戻り値

pyspark.sql.Column:コサイン類似度は浮動小数点値として扱われます。

Python
from pyspark.sql import functions as dbf
from pyspark.sql.types import ArrayType, FloatType, StructType, StructField

schema = StructType([StructField('a', ArrayType(FloatType())), StructField('b', ArrayType(FloatType()))])
df = spark.createDataFrame([([1.0, 2.0, 3.0], [4.0, 5.0, 6.0])], schema)
df.select(dbf.vector_cosine_similarity('a', 'b')).first()[0]
# 0.974631...
このページの見出し