Usar os valores da tarefa para passar informações entre a tarefa

October 04, 2024

Os valores de tarefa referem-se à subutilidade Databricks utilidades taskValues, que permite que o senhor passe valores arbitrários entre tarefas em um trabalho Databricks. Consulte o subutilitário taskValues (dbutils.Job.taskValues).

O senhor especifica um par key-valor usando dbutils.jobs.taskValues.set() em uma tarefa e, em seguida, pode usar o nome da tarefa e key para fazer referência ao valor nas tarefas subsequentes.

Observação

As subutilidades dbutils.jobs.taskValues.set() e dbutils.jobs.taskValues.get() só estão disponíveis no site Python Notebook. O senhor pode fazer referência a valores de tarefa usando referências de valores dinâmicos para todas as tarefas que suportam parâmetros. Consulte Valores de tarefa de referência.

Definir valores de tarefa

Defina os valores de tarefa no Python Notebook usando a subutilidade dbutils.jobs.taskValues.set().

A chave de valor da tarefa deve ser strings. Cada key deve ser exclusivo se o senhor tiver vários valores de tarefa definidos em um Notebook.

O senhor pode atribuir manual ou programaticamente valores de tarefa à chave. Somente os valores que podem ser expressos como JSON válido são permitidos. O tamanho da representação JSON do valor não pode exceder 48 KiB.

Por exemplo, o exemplo a seguir define uma cadeia de caracteres estática para key fave_food:

Python
dbutils.jobs.taskValues.set(key = "fave_food", value = "beans")

O exemplo a seguir usa um parâmetro de tarefa do Notebook para consultar todos os registros de um determinado número de pedido e retornar o status atual do pedido e a contagem total de registros:

Python
from pyspark.sql.functions import col

order_num = dbutils.widgets.get("order_num")

query = (spark.read.table("orders")
  .orderBy(col("updated"), ascending=False)
  .select(col("order_status"))
  .where(col("order_num") == order_num)
)

dbutils.jobs.taskValues.set(key = "record_count", value = query.count())
dbutils.jobs.taskValues.set(key = "order_status", value = query.take(1)[0][0])

O senhor pode passar listas de valores usando esse padrão e depois usá-las para coordenar a lógica downstream, como para cada tarefa. Ver execução a parameterized Databricks Job tarefa in a loop.

O exemplo a seguir extrai os valores distintos do ID do produto para uma lista Python e define isso como um valor de tarefa:

Python
prod_list = list(spark.read.table("products").select("prod_id").distinct().toPandas()["prod_id"])

dbutils.jobs.taskValues.set(key = "prod_list", value = prod_list)

Valores de referência da tarefa

A Databricks recomenda fazer referência aos valores da tarefa como parâmetros da tarefa configurados usando o padrão de referência de valor dinâmico {{tasks.<task_name>.values.<value_name>}}.

Por exemplo, para fazer referência ao valor da tarefa com o key prod_list de uma tarefa chamada product_inventory, use a sintaxe {{tasks.product_inventory.values.prod_list}}.

Consulte Configurar parâmetros de tarefa e O que é uma referência de valor dinâmico?

Use dbutils.jobs.taskValues.get

A sintaxe dbutils.jobs.taskValues.get() requer a especificação do nome da tarefa upstream. Essa sintaxe não é recomendada, pois o senhor pode usar os valores da tarefa em várias tarefas downstream, o que significa que são necessárias várias atualizações se o nome da tarefa for alterado.

Usando essa sintaxe, você pode especificar opcionalmente um valor default e debugValue. O valor default é usado se o key não puder ser encontrado. O debugValue permite que o senhor defina um valor estático a ser usado durante o desenvolvimento e teste manual do código no Notebook antes de programar o Notebook como uma tarefa.

O exemplo a seguir obtém o valor para key order_status definido em um nome de tarefa order_lookup. O valor Delivered é retornado somente quando o Notebook é executado interativamente.

Python
order_status = dbutils.jobs.taskValues.get(taskKey = "order_lookup", key = "order_status", debugValue = "Delivered")

Observação

Databricks não recomenda a configuração de valores em default, pois eles podem ser difíceis de solucionar e evitar mensagens de erro esperadas devido à falta de uma chave ou ao nome incorreto da tarefa.

visualizar valores de tarefa

O valor retornado de um valor de tarefa para cada execução é exibido no painel Output (Saída ) dos detalhes da execução da tarefa. Veja a história da tarefa execução.