メインコンテンツまでスキップ

xxhash64

xxHash アルゴリズムの 64 ビット版を使用して指定された列のハッシュ コードを計算し、結果を長い列として返します。ハッシュ計算では初期シードとして 42 が使用されます。Spark Connect をサポートします。

対応する Databricks SQL 関数については、 xxhash64関数を参照してください。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.xxhash64(*cols)

パラメーター

パラメーター

Type

説明

cols

pyspark.sql.Column または str

コンピュートする 1 つ以上の列。

戻り値

pyspark.sql.Column: ハッシュ値を長い列として表示します。

例1 : 単一列のxxhash64を計算する

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1')).show()
Output
+---+---+-------------------+
| c1| c2| xxhash64(c1)|
+---+---+-------------------+
|ABC|DEF|4105715581806190027|
+---+---+-------------------+

例2 : 複数列のxxhash64を計算する

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1', df.c2)).show()
Output
+---+---+-------------------+
| c1| c2| xxhash64(c1, c2)|
+---+---+-------------------+
|ABC|DEF|3233247871021311208|
+---+---+-------------------+