レーベンシュタイン
与えられた 2 つの文字列のレーベンシュタイン距離をコンピュートします。
対応する Databricks SQL 関数については、 levenshtein関数を参照してください。
構文
Python
from pyspark.databricks.sql import functions as dbf
dbf.levenshtein(left=<left>, right=<right>, threshold=<threshold>)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| 最初の列の値。 |
|
| 2 列目の値。 |
|
| 2つの文字列のレーベンシュタイン距離が指定されたしきい値以下の場合に設定すると、結果の距離が返されます。そうでない場合は -1 が返されます。 |
戻り値
pyspark.sql.Column: レーベンシュタイン距離を整数値で表します。
例
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('kitten', 'sitting',)], ['l', 'r'])
df.select('*', dbf.levenshtein('l', 'r')).show()
Python
df.select('*', dbf.levenshtein(df.l, df.r, 2)).show()