Pular para o conteúdo principal

Funções definidas pelo usuário no Databricks Connect para Python

nota

Este artigo aborda Databricks Connect para Databricks Runtime 13.1 e acima.

Este artigo descreve como executar UDFs com Databricks Connect para Python. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e aplicativos personalizados ao clustering Databricks. Para obter a versão Scala deste artigo, consulte Funções definidas pelo usuário em Databricks Connect para Scala.

nota

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

O Databricks Connect for Python oferece suporte a funções definidas pelo usuário (UDF). Quando uma operação de Dataframe que inclui UDFs é executada, as UDFs envolvidas são serializadas pelo site Databricks Connect e enviadas ao servidor como parte da solicitação.

nota

Como a função definida pelo usuário é serializada e desserializada, a versão Python usada pelo cliente deve corresponder à versão Python no clustering Databricks. Para verificar a versão Python do clustering, consulte a seção "Ambiente do sistema" para obter a versão Databricks Runtime do clustering em Databricks Runtime notas sobre versões e compatibilidade.

O programa Python a seguir configura uma UDF simples que eleva os valores em uma coluna ao quadrado.

Python
from pyspark.sql.functions import col, udf
from pyspark.sql.types import IntegerType
from databricks.connect import DatabricksSession

@udf(returnType=IntegerType())
def double(x):
return x * x

spark = DatabricksSession.builder.getOrCreate()

df = spark.range(1, 2)
df = df.withColumn("doubled", double(col("id")))

df.show()