メインコンテンツまでスキップ

レーベンシュタイン

与えられた 2 つの文字列のレーベンシュタイン距離をコンピュートします。

対応する Databricks SQL 関数については、 levenshtein関数を参照してください。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.levenshtein(left=<left>, right=<right>, threshold=<threshold>)

パラメーター

パラメーター

Type

説明

left

pyspark.sql.Column または str

最初の列の値。

right

pyspark.sql.Column または str

2 列目の値。

threshold

intオプション

2つの文字列のレーベンシュタイン距離が指定されたしきい値以下の場合に設定すると、結果の距離が返されます。そうでない場合は -1 が返されます。

戻り値

pyspark.sql.Column: レーベンシュタイン距離を整数値で表します。

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('kitten', 'sitting',)], ['l', 'r'])
df.select('*', dbf.levenshtein('l', 'r')).show()
Python
df.select('*', dbf.levenshtein(df.l, df.r, 2)).show()