Funções definidas pelo usuário (UDFs) no Unity Catalog

info

Visualização

Esse recurso está em Public Preview.

As funções definidas pelo usuário (UDFs) no Unity Catalog ampliam os recursos do SQL e do Python no Databricks. Eles permitem que funções personalizadas sejam definidas, usadas e compartilhadas e controladas com segurança em todos os ambientes de computação.

Python Os UDFs registrados como funções em Unity Catalog diferem em escopo e suporte dos UDFs de PySpark com escopo para um Notebook ou SparkSession. Consulte Funções escalares definidas pelo usuário - Python.

Consulte CREATE FUNCTION (SQL e Python) para obter uma referência completa da linguagem SQL.

Requisitos

Para usar UDFs no Unity Catalog, os seguintes requisitos devem ser atendidos:

Para usar o código Python em UDFs registrados em Unity Catalog, o senhor deve usar um serverless ou pro SQL warehouse ou um clustering executando Databricks Runtime 13.3 LTS ou acima.
Se um view incluir um UC Python UDF, ele falhará em SQL Classic Warehouses.

Criação de UDFs no Unity Catalog

Para criar um UDF no Unity Catalog, os usuários precisam de permissão USAGE e CREATE no esquema e permissão USAGE no catálogo. Veja Unity Catalog para obter mais detalhes.

Para executar um UDF, os usuários precisam de permissão EXECUTE no UDF. Os usuários também precisam da permissão de USO no esquema e no catálogo.

O exemplo a seguir registra uma nova função no esquema my_schema Unity Catalog:

SQL
CREATE OR REPLACE FUNCTION my_catalog.my_schema.calculate_bmi(weight DOUBLE, height DOUBLE)
RETURNS DOUBLE
LANGUAGE SQL
RETURN
SELECT weight / (height * height);

As UDFs do Python para o Unity Catalog usam instruções compensadas por cifrões duplos ($$). Você deve especificar um mapeamento do tipo de dados. O exemplo a seguir registra um UDF que calcula o índice de massa corporal:

SQL
CREATE OR REPLACE FUNCTION my_catalog.my_schema.calculate_bmi(weight_kg DOUBLE, height_m DOUBLE)
RETURNS DOUBLE
LANGUAGE PYTHON
AS $$
return weight_kg / (height_m ** 2)
$$;

Agora o senhor pode usar essa função do Unity Catalog em suas consultas SQL ou no código PySpark:

SQL
SELECT person_id, my_catalog.my_schema.calculate_bmi(weight_kg, height_m) AS bmi
FROM person_data;

Estenda UDFs usando dependências personalizadas

info

Visualização

Esse recurso está em Public Preview.

Amplie a funcionalidade dos UDFs do Unity Catalog Python para além do ambiente Databricks Runtime, definindo dependências personalizadas para bibliotecas externas.

Instale dependências das seguintes fontes:

PyPi pacote
Arquivos armazenados em volumes do Unity Catalog O usuário que invoca o UDF deve ter permissões READ VOLUME no volume de origem.
Arquivos disponíveis em URLs públicos As regras de segurança de rede do seu workspace devem permitir o acesso a URLs públicos.

nota

Para configurar regras de segurança de rede para permitir o acesso a URLS públicos a partir de um site serverless SQL warehouse, consulte Validar com Databricks SQL.

O armazém sem servidor SQL requer o recurso Public Preview Habilite a rede para que os UDFs no armazém sem servidor SQL sejam habilitados para acessar a Internet para dependências personalizadas.

As dependências personalizadas para os UDFs do site Unity Catalog são compatíveis com os seguintes tipos de compute:

Notebook e trabalho sem servidor
compute para todos os fins usando Databricks Runtime versão 16.2 e acima
SQL warehouse classic ou pro

Use a seção ENVIRONMENT da definição do UDF para especificar as dependências:

SQL
CREATE OR REPLACE FUNCTION my_catalog.my_schema.mixed_process(data STRING)
RETURNS STRING
LANGUAGE PYTHON
ENVIRONMENT (
  dependencies = '["simplejson==3.19.3", "/Volumes/my_catalog/my_schema/my_volume/packages/custom_package-1.0.0.whl", "https://my-bucket.s3.amazonaws.com/packages/special_package-2.0.0.whl?Expires=2043167927&Signature=abcd"]',
  environment_version = 'None'
)
AS $$
import simplejson as json
import custom_package
return json.dumps(custom_package.process(data))
$$;

A seção ENVIRONMENT contém os seguintes campos:

campo	Descrição	Tipo	Exemplo de uso
`dependencies`	`STRING`	Uma lista de dependências separadas por vírgula a serem instaladas. Cada entrada é uma cadeia de caracteres que está em conformidade com o formato de arquivo de requisitos de pip.	`dependencies = '["simplejson==3.19.3", "/Volumes/catalog/schema/volume/packages/my_package-1.0.0.whl"]'` `dependencies = '["https://my-bucket.s3.amazonaws.com/packages/my_package-2.0.0.whl?Expires=2043167927&Signature=abcd"]'`
`environment_version`	`STRING`	Especifica a versão do ambiente serverless na qual o senhor deve executar o UDF. Atualmente, somente o valor `None` é suportado.	`environment_version = 'None'`

campo

Descrição

Tipo

Exemplo de uso

dependencies

STRING

Uma lista de dependências separadas por vírgula a serem instaladas. Cada entrada é uma cadeia de caracteres que está em conformidade com o formato de arquivo de requisitos de pip.

dependencies = '["simplejson==3.19.3", "/Volumes/catalog/schema/volume/packages/my_package-1.0.0.whl"]'

dependencies = '["https://my-bucket.s3.amazonaws.com/packages/my_package-2.0.0.whl?Expires=2043167927&Signature=abcd"]'

environment_version

STRING

Especifica a versão do ambiente serverless na qual o senhor deve executar o UDF.

Atualmente, somente o valor None é suportado.

environment_version = 'None'

Usando o site Unity Catalog UDF no PySpark

Python
from pyspark.sql.functions import expr

result = df.withColumn("bmi", expr("my_catalog.my_schema.calculate_bmi(weight_kg, height_m)"))
display(result)

Atualizar um UDF com escopo de sessão

nota

A sintaxe e a semântica dos UDFs Python no Unity Catalog diferem dos UDFs Python registrados no SparkSession. Consulte funções escalares definidas pelo usuário - Python.

Dada a seguinte sessão baseada em UDF em um Databricks Notebook:

Python
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

@udf(StringType())
def greet(name):
    return f"Hello, {name}!"

# Using the session-based UDF
result = df.withColumn("greeting", greet("name"))
result.show()

Para registrar isso como uma função Unity Catalog, use uma instrução SQL CREATE FUNCTION, como no exemplo a seguir:

SQL
CREATE OR REPLACE FUNCTION my_catalog.my_schema.greet(name STRING)
RETURNS STRING
LANGUAGE PYTHON
AS $$
return f"Hello, {name}!"
$$

Compartilhar UDFs no Unity Catalog

As permissões para UDFs são gerenciadas com base nos controles de acesso aplicados ao catálogo, esquema ou banco de dados em que o UDF está registrado. Veja Unity Catalog para obter mais informações.

Use a interface de usuário Databricks SQL ou Databricks workspace para conceder permissões a um usuário ou grupo (recomendado).

Permissões na interface do usuário workspace

Localize o catálogo e o esquema em que o UDF está armazenado e selecione o UDF.
Procure a opção Permissions (Permissões ) nas configurações do UDF. Adicione usuários ou grupos e especifique o tipo de acesso que eles devem ter, como EXECUTAR ou gerenciar.

Permissões na interface do usuário do espaço de trabalho

Permissões usando o Databricks SQL

O exemplo a seguir concede a um usuário a permissão EXECUTE em uma função:

SQL
GRANT EXECUTE ON FUNCTION my_catalog.my_schema.calculate_bmi TO `user@example.com`;

Para remover permissões, use o comando REVOKE como no exemplo a seguir:

SQL
REVOKE EXECUTE ON FUNCTION my_catalog.my_schema.calculate_bmi FROM `user@example.com`;

Práticas recomendadas para UDFs

Para que os UDFs sejam acessíveis a todos os usuários, a Databricks recomenda a criação de um catálogo e um esquema dedicados com controles de acesso apropriados.

Para UDFs específicos da equipe, use um esquema dedicado no catálogo da equipe para armazenamento e gerenciamento.

Databricks recomenda que o senhor inclua as seguintes informações no docstring do UDF:

O número da versão atual
Um registro de alterações para rastrear as modificações entre as versões
O objetivo, os parâmetros e o valor de retorno do UDF
Um exemplo de como usar o UDF

Aqui está um exemplo de um UDF que segue as práticas recomendadas:

SQL
CREATE OR REPLACE FUNCTION my_catalog.my_schema.calculate_bmi(weight_kg DOUBLE, height_m DOUBLE)
RETURNS DOUBLE
COMMENT "Calculates Body Mass Index (BMI) from weight and height."
LANGUAGE PYTHON
AS $$
 """
Parameters:
calculate_bmi (version 1.2):
- weight_kg (float): Weight of the individual in kilograms.
- height_m (float): Height of the individual in meters.

Returns:
- float: The calculated BMI.

Example Usage:

SELECT calculate_bmi(weight, height) AS bmi FROM person_data;

Change Log:
- 1.0: Initial version.
- 1.1: Improved error handling for zero or negative height values.
- 1.2: Optimized calculation for performance.

 Note: BMI is calculated as weight in kilograms divided by the square of height in meters.
 """
if height_m <= 0:
 return None  # Avoid division by zero and ensure height is positive
return weight_kg / (height_m ** 2)
$$;

UDFs para ferramentas do agente AI

Os agentes generativos do AI podem usar os UDFs do Unity Catalog como ferramentas para realizar tarefas e executar lógica personalizada.

Consulte Criar ferramentas personalizadas do agente AI com as funções Unity Catalog.

UDFs para acesso a APIs externas

O senhor pode usar UDFs para acessar APIs externas a partir do SQL. O exemplo a seguir usa a biblioteca Python requests para fazer uma solicitação HTTP.

nota

Python Os UDFs permitem o tráfego de rede TCP/UDP pelas portas 80, 443 e 53 usando serverless compute ou compute configurados com o modo de acesso padrão.

SQL
CREATE FUNCTION my_catalog.my_schema.get_food_calories(food_name STRING)
RETURNS DOUBLE
LANGUAGE PYTHON
AS $$
import requests

api_url = f"https://example-food-api.com/nutrition?food={food_name}"
response = requests.get(api_url)

if response.status_code == 200:
   data = response.json()
   # Assuming the API returns a JSON object with a 'calories' field
   calories = data.get('calories', 0)
   return calories
else:
   return None  # API request failed

$$;

UDFs para segurança e compliance

Use UDFs Python para implementar mecanismos personalizados de tokenização, mascaramento de dados, redação de dados ou criptografia.

O exemplo a seguir mascara a identidade de um endereço email, mantendo o comprimento e o domínio:

SQL
CREATE OR REPLACE FUNCTION my_catalog.my_schema.mask_email(email STRING)
RETURNS STRING
LANGUAGE PYTHON
AS $$
parts = email.split('@', 1)
if len(parts) == 2:
  username, domain = parts
else:
  return None
masked_username = username[0] + '*' * (len(username) - 2) + username[-1]
return f"{masked_username}@{domain}"
$$

O exemplo a seguir aplica esse UDF em uma definição dinâmica do view:

SQL
-- First, create the view
CREATE OR REPLACE VIEW my_catalog.my_schema.masked_customer_view AS
SELECT
  id,
  name,
  my_catalog.my_schema.mask_email(email) AS masked_email
FROM my_catalog.my_schema.customer_data;

-- Now you can query the view
SELECT * FROM my_catalog.my_schema.masked_customer_view;

+---+------------+------------------------+------------------------+
| id|        name|                   email|           masked_email |
+---+------------+------------------------+------------------------+
|  1|    John Doe|   john.doe@example.com |  j*******e@example.com |
|  2| Alice Smith|alice.smith@company.com |a**********h@company.com|
|  3|   Bob Jones|    bob.jones@email.org |   b********s@email.org |
+---+------------+------------------------+------------------------+

Limitações

O senhor pode definir qualquer número de funções Python em um UDF Python, mas todas devem retornar um valor escalar.
Python devem tratar os valores NULL de forma independente, e todos os mapeamentos de tipos devem seguir os mapeamentos da linguagem Databricks SQL.
Se nenhum catálogo ou esquema for especificado, os UDFs do Python serão registrados no esquema ativo atual.
Python Os UDFs são executados em um ambiente seguro e isolado e não têm acesso a sistemas de arquivos ou serviços internos.
Você não pode chamar mais de cinco UDFs por consulta.

Requisitos​

Criação de UDFs no Unity Catalog​

Estenda UDFs usando dependências personalizadas​

Usando o site Unity Catalog UDF no PySpark​

Atualizar um UDF com escopo de sessão​

Compartilhar UDFs no Unity Catalog​

Permissões na interface do usuário workspace​

Permissões usando o Databricks SQL​

Práticas recomendadas para UDFs​

UDFs para ferramentas do agente AI​

UDFs para acesso a APIs externas​

UDFs para segurança e compliance​

Limitações​

Requisitos

Criação de UDFs no Unity Catalog

Estenda UDFs usando dependências personalizadas

Usando o site Unity Catalog UDF no PySpark

Atualizar um UDF com escopo de sessão

Compartilhar UDFs no Unity Catalog

Permissões na interface do usuário workspace

Permissões usando o Databricks SQL

Práticas recomendadas para UDFs

UDFs para ferramentas do agente AI

UDFs para acesso a APIs externas

UDFs para segurança e compliance

Limitações