xxhash64
Calcula o código hash das colunas fornecidas usando a variante de 64 bits do algoritmo xxHash e retorna o resultado como uma coluna longa. O cálculo do hash utiliza uma semente inicial de 42. Compatível com Spark Connect.
Para a função Databricks SQL correspondente, consulte a funçãoxxhash64.
Sintaxe
Python
from pyspark.databricks.sql import functions as dbf
dbf.xxhash64(*cols)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| Uma ou mais colunas para compute . |
Devoluções
pyspark.sql.Column: valor de hash como coluna longa.
Exemplos
Exemplo 1 : Calculando o xxhash64 de uma única coluna
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1')).show()
Output
+---+---+-------------------+
| c1| c2| xxhash64(c1)|
+---+---+-------------------+
|ABC|DEF|4105715581806190027|
+---+---+-------------------+
Exemplo 2 : Calculando o xxhash64 de múltiplas colunas
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1', df.c2)).show()
Output
+---+---+-------------------+
| c1| c2| xxhash64(c1, c2)|
+---+---+-------------------+
|ABC|DEF|3233247871021311208|
+---+---+-------------------+