Definir configurações para Jobdo Databricks

Este artigo fornece detalhes sobre a configuração de Jobs do Databricks e de Job tarefas individuais na interface do usuário de Jobs. Para saber como usar a CLI do Databricks para editar as configurações do site Job, execute o comando databricks jobs update -h da CLI. Para saber mais sobre como usar a API de Jobs, consulte a API de Jobs.

Algumas opções de configuração estão disponíveis no Job e outras opções estão disponíveis na tarefa individual. Por exemplo, a execução simultânea máxima pode ser definida apenas no Job, enquanto as políticas de repetição são definidas para cada tarefa.

Editar um Job

Para alterar a configuração de um Job:

  1. Clique Ícone de trabalhos fluxo de trabalho na barra lateral.

  2. Na coluna Nome , clique no nome Job .

O painel lateral exibe os detalhesJob . Você pode alterar o gatilho para o Job, configuração compute , notificações, o número máximo de execução simultânea, configurar limites de duração e adicionar ou alterar tags. Se o controle de acessoJob estiver ativado, você também poderá editar as permissões Job .

Adicione parâmetros para todas as tarefas Job

O senhor pode configurar parâmetros em um Job que são passados para qualquer tarefa do Jobque aceite parâmetros key-value, inclusive arquivos Python wheel configurados para aceitar argumentos de palavras-chave. Os parâmetros definidos no nível Job são adicionados aos parâmetros configurados no nível da tarefa. Job Os parâmetros passados para a tarefa são visíveis na configuração da tarefa, juntamente com quaisquer parâmetros configurados na tarefa.

Você também pode passar parâmetros Job para tarefa que não estejam configurados com parâmetros de valor- key , como JAR ou Spark Submit tarefa. Para passar parâmetros Job para esta tarefa, formate os argumentos como {{job.parameters.[name]}}, substituindo [name] pelo key que identifica o parâmetro.

Os parâmetros Job têm precedência sobre os parâmetros da tarefa. Se um parâmetro Job e um parâmetro task tiverem a mesma key, o parâmetro Job substituirá o parâmetro task.

Você pode substituir os parâmetros Job configurados ou adicionar novos parâmetros Job ao executar um Job com parâmetros diferentes ou reparar uma execução Job .

Você também pode compartilhar o contexto sobre Job e tarefa usando um conjunto de referências de valores dinâmicos.

Para adicionar parâmetros Job , clique em Editar parâmetros no painel lateral DetalhesJob e especifique a key e o valor default de cada parâmetro. Para view uma lista de referências de valores dinâmicos disponíveis, clique em Procurar valores dinâmicos.

Adicionar tags a um Job

Para adicionar rótulos ou atributos key:valor ao seu Job, você pode adicionar tags ao editar o Job. Você pode usar tags para filtrar Job na lista de Trabalhos; por exemplo, você pode usar uma tag department para filtrar todos Job pertencentes a um departamento específico.

Observação

Como tags Job não são projetadas para armazenar informações confidenciais, como informações ou senhas de identificação pessoal, o Databricks recomenda o uso de tags apenas para valores não confidenciais.

Tags também se propagam para clusters Job criados quando um Job é executado, permitindo que você use tags com seu monitoramento de cluster existente.

Para adicionar ou editar tags, clique em + Tag no painel lateral DetalhesJob . Você pode adicionar as tags como uma key e valor ou um rótulo. Para adicionar um rótulo, insira o rótulo no campo- key e deixe o campo Valor vazio.

Configurar clusters compartilhados

Para ver as tarefas associadas a clusters, clique na tab Tasks e passe o mouse sobre os clusters no painel lateral. Para alterar a configuração clusters para todas as tarefas associadas, clique em Configurar sob os clusters. Para configurar novos clusters para todas as tarefas associadas, clique em swap sob os clusters.

Controlar o acesso a um Job

O controle de acesso ao Job permite que os proprietários e administradores Job concedam permissões refinadas em seus Job. Os proprietários Job podem escolher quais outros usuários ou grupos podem view os resultados Job . Os proprietários também podem escolher quem pode gerenciar suas execuções Job (Executar agora e Cancelar permissões de execução).

Para obter informações sobre os níveis de permissão do site Job, consulte Job ACLs.

O senhor deve ter permissão CAN MANAGE ou IS OWNER no Job para poder gerenciar as permissões nele.

  1. Na barra lateral, clique em Job execução.

  2. Clique no nome de um Job.

  3. No painel de detalhes doJob , clique em Edit permissions (Editar permissões).

  4. Em Permission Settings (Configurações de permissão), clique no menu suspenso Select User, Group or entidade de serviço e selecione um usuário, grupo ou entidade de serviço.

    Caixa de diálogo Permissions Settings (Configurações de permissões)
  5. Clique em Adicionar.

  6. Clique em Salvar.

Gerenciar o proprietário do Job

Por default, o criador de um Job tem a IS OWNER permissão e é o usuário na Job configuração de execução como . Jobcomo a identidade do usuário na execução como configuração. Para obter mais informações sobre a configuração de execução como, consulte executar a Job como uma entidade de serviço.

workspace os administradores podem alterar o proprietário de Job para eles mesmos. Quando a propriedade é transferida, o proprietário anterior recebe a permissão CAN MANAGE

Observação

Quando a configuração RestrictWorkspaceAdmins em um workspace é definida como ALLOW ALL, os administradores do workspace podem alterar um proprietário do Job para qualquer usuário ou entidade de serviço em seu workspace. Para restringir os administradores do site workspace a alterarem apenas o proprietário do site Job para si mesmos, consulte Restringir administradores do site workspace .

Configurar execução máxima concorrente

Clique em Editar execução simultânea para definir o número máximo de execução paralela para este Job. Databricks pula a execução se o Job já atingiu seu número máximo de execuções ativas ao tentar iniciar uma nova execução. Defina este valor mais alto que o default de 1 para executar múltiplas execuções do mesmo Job simultaneamente. Isso é útil, por exemplo, se você acionar seu Job em um programar frequente e quiser permitir que execuções consecutivas se sobreponham ou se quiser acionar várias execuções que diferem por seus parâmetros de entrada.

Habilitar enfileiramento de execução Job

Para permitir que execuções de um Job sejam colocadas em uma fila para execução posterior quando não puderem ser executadas imediatamente devido a limites de simultaneidade, clique no botão de alternância Fila . Consulte E se meu Job não puder ser executado devido a limites de simultaneidade?.

Configure um tempo de conclusão esperado ou um tempo limite para um Job

Você pode configurar limites de duração opcionais para um Job, incluindo um tempo de conclusão esperado para o Job e um tempo máximo de conclusão para o Job. Para configurar limites de duração, clique em Definir limites de duração.

Para configurar um tempo de conclusão esperado para o Job, insira a duração esperada no campo Aviso . Se o Job exceder esse limite, você poderá configurar notificações para o Job de execução lenta. Consulte Configurar notificações para Joblento ou atrasado.

Para configurar um tempo máximo de conclusão para um Job, insira a duração máxima no campo Timeout . Se o Job não for concluído nesse período, o Databricks definirá seu status como “Tempo esgotado” e o Job será interrompido.

Editar uma tarefa

Para definir opções de configuração de tarefa:

  1. Clique Ícone de trabalhos fluxo de trabalho na barra lateral.

  2. Na coluna Nome , clique no nome Job .

  3. Clique na tab Tarefas e selecione a tarefa a ser editada.

Definir dependências de tarefas

Você pode definir a ordem de execução da tarefa em um Job usando o menu suspenso Depende de . Você pode definir este campo para uma ou mais tarefas no Job.

Editar dependências de tarefas

Observação

Depende de não é visível se o Job consistir em apenas uma tarefa.

A configuração de dependências de tarefas cria um Gráfico Acíclico Direcionado (DAG) de execução de tarefas, uma forma comum de representar a ordem de execução no programador Job . Por exemplo, considere o seguinte Job que consiste em quatro tarefas:

Diagrama de exemplo de dependências de tarefas
  • A tarefa 1 é a tarefa raiz e não depende de nenhuma outra tarefa.

  • a tarefa 2 e a tarefa 3 dependem da conclusão da tarefa 1 primeiro.

  • Finalmente, a tarefa 4 depende da tarefa 2 e a tarefa 3 é concluída com sucesso.

Databricks executa tarefas upstream antes de executar tarefas downstream, executando o maior número possível delas em paralelo. O diagrama a seguir ilustra a ordem de processamento para essas tarefas:

Exemplo de fluxo de dependências de tarefas

Configurar clusters para uma tarefa

Para configurar os clusters onde uma tarefa é executada, clique no menu suspenso clusters . Você pode editar Job clusters compartilhados, mas não pode excluir compartilhados clusters se outra tarefa ainda os utilizar.

Para saber mais sobre como selecionar e configurar clusters para tarefas de execução, consulte Usar computação Databricks com seu Job.

Configurar bibliotecas dependentes

As bibliotecas dependentes serão instaladas nos clusters antes da execução da tarefa. Você deve definir todas as dependências da tarefa para garantir que elas sejam instaladas antes da execução começar. Siga as recomendações em gerenciar dependências de biblioteca para especificar dependências.

Configurar um tempo de conclusão esperado ou um tempo limite para uma tarefa

Você pode configurar limites de duração opcionais para uma tarefa, incluindo um tempo de conclusão esperado para a tarefa e um tempo máximo de conclusão para a tarefa. Para configurar limites de duração, clique em Limite de duração.

Para configurar o tempo de conclusão esperado da tarefa, insira a duração no campo Aviso . Se a tarefa exceder esse limite, um evento será acionado. Você pode usar esse evento para notificar quando uma tarefa está sendo executada lentamente. Consulte Configurar notificações para Joblento ou atrasado.

Para configurar um tempo máximo de conclusão para uma tarefa, insira a duração máxima no campo Timeout . Se a tarefa não for concluída nesse período, o Databricks definirá seu status como “Tempo esgotado”.

Configurar uma política de nova tentativa para uma tarefa

Para configurar uma política que determine quando e quantas vezes a execução da tarefa com falha será repetida, clique em + Adicionar ao lado de Novas tentativas. O intervalo de novas tentativas é calculado em milissegundos entre o início da execução com falha e a execução de novas tentativas subsequente.

Observação

Se você configurar Timeout e Retries, o tempo limite será aplicado a cada nova tentativa.