ハッシュ
指定された列のハッシュ コードを計算し、結果を int 列として返します。Spark Connect をサポートします。
対応する Databricks SQL 関数については、 hash関数を参照してください。
構文
Python
from pyspark.databricks.sql import functions as dbf
dbf.hash(*cols)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| コンピュートする 1 つ以上の列。 |
戻り値
pyspark.sql.Column: ハッシュ値を int 列として返します。
例
例1 : 単一列のハッシュを計算する
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1')).show()
Output
+---+---+----------+
| c1| c2| hash(c1)|
+---+---+----------+
|ABC|DEF|-757602832|
+---+---+----------+
例2 : 複数列のハッシュを計算する
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1', df.c2)).show()
Output
+---+---+------------+
| c1| c2|hash(c1, c2)|
+---+---+------------+
|ABC|DEF| 599895104|
+---+---+------------+