ハッシュ

指定された列のハッシュコードを計算し、結果を int 列として返します。Spark Connect をサポートします。

対応する Databricks SQL 関数については、 hash関数を参照してください。

構文

Python
from pyspark.sql import functions as dbf

dbf.hash(*cols)

パラメーター

パラメーター	Type	説明
`cols`	`pyspark.sql.Column` または `str`	コンピュートする 1 つ以上の列。

戻り値

pyspark.sql.Column: ハッシュ値を int 列として返します。

例

例1 : 単一列のハッシュを計算する

Python
from pyspark.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1')).show()

Output
+---+---+----------+
| c1| c2|  hash(c1)|
+---+---+----------+
|ABC|DEF|-757602832|
+---+---+----------+

例2 : 複数列のハッシュを計算する

Python
from pyspark.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1', df.c2)).show()

Output
+---+---+------------+
| c1| c2|hash(c1, c2)|
+---+---+------------+
|ABC|DEF|   599895104|
+---+---+------------+

構文​

パラメーター​

戻り値​

例​

構文

パラメーター

戻り値

例