lotes Python Funções definidas pelo usuário (UDFs) em Unity Catalog

info

Visualização

Esse recurso está em Public Preview.

lotes Unity Catalog Python As UDFs ampliam os recursos das UDFs Unity Catalog, permitindo que o senhor escreva o código Python para operar em lotes de dados, melhorando significativamente a eficiência ao reduzir a sobrecarga associada às UDFs linha a linha. Essas otimizações tornam os UDFs do Unity Catalog lotes Python ideais para o processamento de dados de grandes escalas.

Requisitos

lotes Unity Catalog Python UDFs exigem Databricks Runtime versões 16.3 e acima.

Criar lotes Unity Catalog Python UDF

A criação de um lote Unity Catalog Python UDF é semelhante à criação de um lote normal Unity Catalog UDF, com as seguintes adições:

PARAMETER STYLE PANDAS: Isso especifica que o site UDF processa dados em lotes usando iteradores Pandas.
HANDLER 'handler_function': Especifica a função do manipulador que é chamada para processar os lotes.

O exemplo a seguir mostra como criar um lote Unity Catalog Python UDF:

Python
%sql
CREATE OR REPLACE TEMPORARY FUNCTION calculate_bmi_pandas(weight_kg DOUBLE, height_m DOUBLE)
RETURNS DOUBLE
LANGUAGE PYTHON
DETERMINISTIC
PARAMETER STYLE PANDAS
HANDLER 'handler_function'
AS $$
import pandas as pd
from typing import Iterator, Tuple

def handler_function(batch_iter: Iterator[Tuple[pd.Series, pd.Series]]) -> Iterator[pd.Series]:
  for weight_series, height_series in batch_iter:
    yield weight_series / (height_series ** 2)
$$;

Após registrar o UDF, o senhor pode chamá-lo usando SQL ou Python:

SQL
SELECT person_id, calculate_bmi_pandas(weight_kg, height_m) AS bmi
FROM (
  SELECT 1 AS person_id, CAST(70.0 AS DOUBLE) AS weight_kg, CAST(1.75 AS DOUBLE) AS height_m UNION ALL
  SELECT 2 AS person_id, CAST(80.0 AS DOUBLE) AS weight_kg, CAST(1.80 AS DOUBLE) AS height_m
);

lotes UDF handler function

lotes Unity Catalog Python Os UDFs exigem uma função de tratamento que processe os lotes e produza resultados. O senhor deve especificar o nome da função do manipulador ao criar o UDF usando o HANDLER key.

A função de manipulador faz o seguinte:

Aceita um argumento iterador que itera sobre um ou mais pandas.Series. Cada pandas.Series contém os parâmetros de entrada do UDF.
Itera sobre o gerador e processa os dados.
Retorna um iterador gerador.

lotes Unity Catalog Python Os UDFs devem retornar o mesmo número de linhas que a entrada. A função handler garante isso produzindo um pandas.Series com o mesmo comprimento da série de entrada para cada lote.

Instale dependências personalizadas

O senhor pode estender a funcionalidade dos lotes Unity Catalog Python UDFs para além do ambiente Databricks Runtime, definindo dependências personalizadas para bibliotecas externas.

Consulte Estender UDFs usando dependências personalizadas.

lotes UDFs podem aceitar parâmetros únicos ou múltiplos

Parâmetro único: Quando a função de manipulador usa um único parâmetro de entrada, ela recebe um iterador que itera sobre um pandas.Series para cada lote.

Python
%sql
CREATE OR REPLACE TEMPORARY FUNCTION one_parameter_udf(value INT)
RETURNS STRING
LANGUAGE PYTHON
DETERMINISTIC
PARAMETER STYLE PANDAS
HANDLER 'handler_func'
AS $$
import pandas as pd
from typing import Iterator
def handler_func(batch_iter: Iterator[pd.Series]) -> Iterator[pd.Series]:
  for value_batch in batch_iter:
    d = {"min": value_batch.min(), "max": value_batch.max()}
    yield pd.Series([str(d)] * len(value_batch))
$$;
SELECT one_parameter_udf(id), count(*) from range(0, 100000, 3, 8) GROUP BY ALL;

Vários parâmetros: para vários parâmetros de entrada, a função manipuladora recebe um iterador que itera em vários pandas.Series. Os valores na série estão na mesma ordem dos parâmetros de entrada.

Python
%sql
CREATE OR REPLACE TEMPORARY FUNCTION two_parameter_udf(p1 INT, p2 INT)
RETURNS INT
LANGUAGE PYTHON
DETERMINISTIC
PARAMETER STYLE PANDAS
HANDLER 'handler_function'
AS $$
import pandas as pd
from typing import Iterator, Tuple

def handler_function(batch_iter: Iterator[Tuple[pd.Series, pd.Series]]) -> Iterator[pd.Series]:
  for p1, p2 in batch_iter: # same order as arguments above
    yield p1 + p2
$$;
SELECT two_parameter_udf(id , id + 1) from range(0, 100000, 3, 8);

Otimizar o desempenho separando operações caras

O senhor pode otimizar as operações computacionalmente caras separando-as da função de tratamento. Isso garante que eles sejam executados apenas uma vez, e não durante cada iteração em lotes de dados.

O exemplo a seguir mostra como garantir que uma computação cara seja executada somente uma vez:

Python
%sql
CREATE OR REPLACE TEMPORARY FUNCTION expensive_computation_udf(value INT)
RETURNS INT
LANGUAGE PYTHON
DETERMINISTIC
PARAMETER STYLE PANDAS
HANDLER 'handler_func'
AS $$
def compute_value():
  # expensive computation...
  return 1

expensive_value = compute_value()
def handler_func(batch_iter):
  for batch in batch_iter:
    yield batch * expensive_value
$$;
SELECT expensive_computation_udf(id), count(*) from range(0, 100000, 3, 8) GROUP BY ALL

Limites de isolamento e segurança

nota

Os ambientes de isolamento compartilhado requerem o Databricks Runtime 17.1 e superior. Nas versões anteriores, todos os lotes Unity Catalog Python UDF execução em modo de isolamento estrito.

lotes Unity Catalog Python UDFs com o mesmo proprietário podem compartilhar um ambiente de isolamento por meio de default. Isso pode melhorar o desempenho e reduzir o uso de memória, diminuindo o número de ambientes separados que precisam ser iniciados.

Isolamento estrito

Para garantir que um e UDF eja sempre em seu próprio ambiente, totalmente isolado, adicione a cláusula de característica STRICT ISOLATION.

A maioria dos UDFs não precisa de isolamento estrito. As UDFs de processamento de dados padrão beneficiam do ambiente de isolamento compartilhado do default e são executadas mais rapidamente com menor consumo de memória.

Adicione a cláusula característica STRICT ISOLATION às UDFs que:

execução de entrada como código utilizando eval(), exec() ou funções semelhantes
Gravar arquivos no sistema de arquivos local
Modificar variáveis globais ou estado do sistema
Acessar ou modificar variável de ambiente

O exemplo a seguir mostra uma UDF que executa a entrada como código e requer isolamento estrito:

SQL
CREATE OR REPLACE TEMPORARY FUNCTION eval_string(input STRING)
RETURNS STRING
LANGUAGE PYTHON
PARAMETER STYLE PANDAS
HANDLER 'handler_func'
STRICT ISOLATION
AS $$
import pandas as pd
from typing import Iterator

def handler_func(batch_iter: Iterator[pd.Series]) -> Iterator[pd.Series]:
  for code_series in batch_iter:
    def eval_func(code):
      try:
        return str(eval(code))
      except Exception as e:
        return f"Error: {e}"
    yield code_series.apply(eval_func)
$$;

credenciais de serviço em lotes Unity Catalog Python UDFs

Os lotes Unity Catalog Python UDFs podem usar as Credenciais de serviço Unity Catalog para acessar o serviço de nuvem externo. Isso é particularmente útil para integrar funções de nuvem, como tokenizadores de segurança, ao fluxo de trabalho de processamento de dados.

nota

API específica de UDF para credenciais de serviço:
Em UDFs, use databricks.service_credentials.getServiceCredentialsProvider() para acessar credenciais de serviço.

Isso difere da função dbutils.credentials.getServiceCredentialsProvider() usada no Notebook, que não está disponível em contextos de execução UDF .

Para criar uma credencial de serviço, consulte Criar credenciais de serviço.

Especifique a credencial de serviço que o senhor deseja usar na cláusula CREDENTIALS na definição do UDF:

SQL
CREATE OR REPLACE TEMPORARY FUNCTION example_udf(data STRING)
RETURNS STRING
LANGUAGE PYTHON
PARAMETER STYLE PANDAS
HANDLER 'handler_function'
CREDENTIALS (
  `credential-name` DEFAULT,
  `complicated-credential-name` AS short_name,
  `simple-cred`,
  cred_no_quotes
)
AS $$
# Python code here
$$;

Permissões de credenciais de serviço

O criador do UDF deve ter permissão ACCESS na credencial de serviço do Unity Catalog. No entanto, para os chamadores de UDF, basta conceder-lhes a permissão EXECUTE no UDF. Em particular, os chamadores de UDF não precisam acessar a credencial do serviço subjacente, porque o UDF é executado usando as permissões de credencial do criador do UDF.

Para funções temporárias, o criador é sempre o invocador. Os UDFs que são executados no escopo No-PE , também conhecidos como clustering dedicado, usam as permissões do chamador.

credenciais e aliases padrão

Você pode incluir várias credenciais na cláusula CREDENTIALS, mas somente uma pode ser marcada como DEFAULT. O senhor pode criar um alias para credenciais que não sejamdefault usando a palavra-chave AS. Cada credencial deve ter um alias exclusivo.

Os SDKs de nuvem corrigidos captam automaticamente as credenciais do default. A default credencial tem precedência sobre qualquer default especificada na compute Spark configuração do e persiste na Unity Catalog UDF definição .

exemplo de credencial de serviço - Google Cloud Functions

O exemplo a seguir usa uma credencial de serviço para chamar uma função do Google Cloud a partir de um UDF Python Unity Catalog :

Python
%sql
CREATE OR REPLACE FUNCTION main.test.call_gcp_func(data STRING, debug BOOLEAN) RETURNS STRING LANGUAGE PYTHON
PARAMETER STYLE PANDAS
HANDLER 'batchhandler'
CREDENTIALS (
  `batch-udf-service-creds-example-cred` DEFAULT
)
ENVIRONMENT (
  dependencies = '["google-auth", "google-cloud-functions", "requests"]', environment_version = 'None'
)
AS $$
import google.auth # this import is always needed to trigger the SDK monkeypatching
import json
import pandas as pd
import requests
from google.auth import default
from pyspark.taskcontext import TaskContext


def batchhandler(it):
  # The default credential automatically uses 'batch-udf-service-creds-example-cred'
  credentials, project = default()
  token = credentials.token

  # Google Cloud Function URL
  function_url = "https://us-central1-your-project.cloudfunctions.net/hashValuesFunction"

  # Propagate TaskContext information:
  user_ctx = {"custom": {"user": TaskContext.get().getLocalProperty("user")}}

  for vals, is_debug in it:
    payload = {
      "values": vals.to_list(),
      "is_debug": bool(is_debug[0]),
      "context": user_ctx
    }

    headers = {
      "Authorization": f"Bearer {token}",
      "Content-Type": "application/json"
    }

    response = requests.post(function_url, json=payload, headers=headers)

    if response.status_code != 200:
      raise Exception(f"Function call failed: {response.text}")

    response_data = response.json()
    if "errorMessage" in response_data:
      raise Exception(str(response_data))

    yield pd.Series(response_data["values"])
$$;

Chame o UDF depois que ele for registrado:

SQL
SELECT main.test.call_gcp_func(data, false)
FROM VALUES
('abc'),
('def')
AS t(data)

Obter o contexto de execução da tarefa

Use o TaskContext PySpark API para obter informações de contexto, como a identidade do usuário, a tag do cluster, o ID do spark job e muito mais. Consulte Obter contexto de tarefa em um UDF.

Defina `DETERMINISTIC` se sua função produzir resultados consistentes

Adicione DETERMINISTIC à sua definição de função se ela produzir as mesmas saídas para as mesmas entradas. Isso permite otimizações de consulta para melhorar o desempenho.

Em default, os lotes Unity Catalog Python UDTFs são considerados não determinísticos, a menos que sejam declarados explicitamente. Exemplos de funções não determinísticas incluem: geração de valores aleatórios, acesso a horários ou datas atuais ou chamadas de API externas.

Consulte CREATE FUNCTION (SQL e Python)

Limitações

Python devem tratar os valores de NULL de forma independente, e todos os mapeamentos de tipos devem seguir os mapeamentos de linguagem de Databricks SQL.
Os lotes Unity Catalog Python UDFs são executados em um ambiente seguro e isolado e não têm acesso a um sistema de arquivos compartilhado ou a um serviço interno.
Várias invocações do UDF em um estágio são serializadas e os resultados intermediários são materializados e podem ser transferidos para o disco.
As credenciais do serviço estão disponíveis apenas em lotes Unity Catalog Python UDFs e Scalar Python UDFs. Não são suportados nas UDFs padrão Unity Catalog Python .
Em clustering dedicado e para funções temporárias, o chamador da função deve ter permissões ACCESS nas credenciais do serviço. Consulte Conceder permissões para usar uma credencial de serviço para acessar um serviço de nuvem externo.
Habilite o recurso Public Preview Habilite a rede para UDFs no SQL armazém sem servidor em sua workspace página's Previews para fazer lotes Unity Catalog Python UDF chamadas para serviço externo serverless SQL warehouse compute em .

Requisitos​

Criar lotes Unity Catalog Python UDF​

lotes UDF handler function​

Instale dependências personalizadas​

lotes UDFs podem aceitar parâmetros únicos ou múltiplos​

Otimizar o desempenho separando operações caras​

Limites de isolamento e segurança​

Isolamento estrito​

credenciais de serviço em lotes Unity Catalog Python UDFs​

Permissões de credenciais de serviço​

credenciais e aliases padrão​

exemplo de credencial de serviço - Google Cloud Functions​

Obter o contexto de execução da tarefa​

Defina DETERMINISTIC se sua função produzir resultados consistentes​

Limitações​