Pular para o conteúdo principal

xxhash64

Calcula o código hash das colunas fornecidas usando a variante de 64 bits do algoritmo xxHash e retorna o resultado como uma coluna longa. O cálculo do hash utiliza uma semente inicial de 42. Compatível com Spark Connect.

Para a função Databricks SQL correspondente, consulte a funçãoxxhash64.

Sintaxe

Python
from pyspark.databricks.sql import functions as dbf

dbf.xxhash64(*cols)

Parâmetros

Parâmetro

Tipo

Descrição

cols

pyspark.sql.Column ou str

Uma ou mais colunas para compute .

Devoluções

pyspark.sql.Column: valor de hash como coluna longa.

Exemplos

Exemplo 1 : Calculando o xxhash64 de uma única coluna

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1')).show()
Output
+---+---+-------------------+
| c1| c2| xxhash64(c1)|
+---+---+-------------------+
|ABC|DEF|4105715581806190027|
+---+---+-------------------+

Exemplo 2 : Calculando o xxhash64 de múltiplas colunas

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.xxhash64('c1', df.c2)).show()
Output
+---+---+-------------------+
| c1| c2| xxhash64(c1, c2)|
+---+---+-------------------+
|ABC|DEF|3233247871021311208|
+---+---+-------------------+