Pular para o conteúdo principal

haxixe

Calcula o código hash das colunas fornecidas e retorna o resultado como uma coluna do tipo int. Compatível com Spark Connect.

Para a função Databricks SQL correspondente, consulte a funçãohash.

Sintaxe

Python
from pyspark.databricks.sql import functions as dbf

dbf.hash(*cols)

Parâmetros

Parâmetro

Tipo

Descrição

cols

pyspark.sql.Column ou str

Uma ou mais colunas para compute .

Devoluções

pyspark.sql.Column: valor de hash como coluna do tipo int.

Exemplos

Exemplo 1 : Calculando o hash de uma única coluna

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1')).show()
Output
+---+---+----------+
| c1| c2| hash(c1)|
+---+---+----------+
|ABC|DEF|-757602832|
+---+---+----------+

Exemplo 2 : Calculando o hash de múltiplas colunas

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('ABC', 'DEF')], ['c1', 'c2'])
df.select('*', dbf.hash('c1', df.c2)).show()
Output
+---+---+------------+
| c1| c2|hash(c1, c2)|
+---+---+------------+
|ABC|DEF| 599895104|
+---+---+------------+