Configurar definições para Databricks Job
Este artigo fornece detalhes sobre a configuração de Databricks Jobs e tarefas individuais de Jobs na interface do usuário de Jobs. Para saber como usar o Databricks CLI para editar as configurações do trabalho, execute o CLI comando databricks jobs update -h
. Para saber mais sobre como usar a API de Jobs, consulte a API de Jobs.
Algumas opções de configuração estão disponíveis no Job e outras opções estão disponíveis em tarefas individuais. Por exemplo, a execução máxima concorrente pode ser definida apenas no trabalho, enquanto as políticas de repetição são definidas para cada tarefa.
Editar um trabalho
Para alterar a configuração de um trabalho:
Clique em fluxo de trabalho na barra lateral.
Na coluna Nome, clique no nome do cargo.
O painel lateral exibe os detalhes do siteJob . O senhor pode alterar o acionador do trabalho, a configuração do compute, as notificações, o número máximo de execução concorrente, configurar o limite de duração e adicionar ou alterar o tags. Se o controle de acesso ao trabalho estiver ativado, o senhor também poderá editar as permissões do trabalho.
Adicionar parâmetros para todas as tarefas de trabalho
O senhor pode configurar parâmetros em um Job que são passados para qualquer tarefa do Job que aceite parâmetros key-value, inclusive arquivos Python wheel configurados para aceitar argumentos de palavras-chave. Os parâmetros definidos no nível do Job são adicionados aos parâmetros configurados no nível da tarefa. Job Os parâmetros passados para a tarefa são visíveis na configuração da tarefa, juntamente com quaisquer parâmetros configurados na tarefa.
O senhor também pode passar parâmetros de trabalho para a tarefa que não estejam configurados com parâmetros key-value, como JAR
ou Spark Submit
tarefa. Para passar parâmetros de trabalho para essas tarefas, formate os argumentos como {{job.parameters.[name]}}
, substituindo [name]
pelo key
que identifica o parâmetro.
Job têm precedência sobre os parâmetros de tarefa. Se um parâmetro de trabalho e um parâmetro de tarefa tiverem o mesmo key, o parâmetro de trabalho substituirá o parâmetro de tarefa.
O senhor pode substituir os parâmetros configurados do trabalho ou adicionar novos parâmetros ao executar um trabalho com parâmetros diferentes ou reparar a execução de um trabalho.
O senhor também pode compartilhar o contexto sobre o Job e a tarefa usando um conjunto de referências de valores dinâmicos.
Para adicionar parâmetros de trabalho, clique em Edit parameters (Editar parâmetros ) no painel lateral de detalhesJob e especifique o valor key e default de cada parâmetro. Para view uma lista de referências de valores dinâmicos disponíveis, clique em Browse dynamic values (Procurar valores dinâmicos).
Adicionar tags a um trabalho
Para adicionar atributos de rótulo ou key:value ao seu trabalho, o senhor pode adicionar tags ao editar o trabalho. O senhor pode usar tags para filtrar o trabalho na lista de trabalhos; por exemplo, pode usar department
tag para filtrar todos os trabalhos que pertencem a um departamento específico.
Observação
Como o Job tags não foi projetado para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, o Databricks recomenda o uso do tags somente para valores não confidenciais.
As tags também se propagam para o Job clusters criado quando um Job é executado, permitindo que o senhor use o tags com o seu monitoramentocluster existente.
Para adicionar ou editar tags, clique em + tag no painel lateral de detalhes deJob . O senhor pode adicionar o tag como key e valor ou um rótulo. Para adicionar um rótulo, digite o rótulo no campo de chave e deixe o campo Value vazio.
Controle o acesso a um trabalho
Job O controle de acesso permite que os proprietários e administradores de trabalhos concedam permissões refinadas em seus trabalhos. Job Os proprietários podem escolher quais outros usuários ou grupos podem view os resultados do Job. Os proprietários também podem escolher quem pode gerenciar a execução de seus trabalhos (permissões de executar agora e cancelar execução).
Para obter informações sobre os níveis de permissão de trabalho, consulte Job ACLs.
O senhor deve ter permissão CAN MANAGE ou IS OWNER no Job para poder gerenciar as permissões nele.
Na barra lateral, clique em Job execução.
Clique no nome de um trabalho.
No painel de detalhes do siteJob , clique em Edit permissions (Editar permissões).
Em Permission Settings (Configurações de permissão), clique no menu suspenso Select User, Group or entidade de serviço e selecione um usuário, grupo ou entidade de serviço.
Clique em Adicionar.
Clique em Salvar.
Gerenciar o proprietário do trabalho
Por default, o criador de um trabalho tem a permissão IS OWNER e é o usuário na configuração de execução como do trabalho. Jobcomo a identidade do usuário na execução como configuração. Para obter mais informações sobre a configuração executar como, consulte executar um trabalho como uma entidade de serviço.
Os administradores do espaço de trabalho podem alterar o proprietário do trabalho para eles mesmos. Quando a propriedade é transferida, o proprietário anterior recebe a permissão CAN MANAGE
Observação
Quando a configuração RestrictWorkspaceAdmins
em um workspace é definida como ALLOW ALL
, os administradores do workspace podem alterar o proprietário de um trabalho para qualquer usuário ou entidade de serviço em seu workspace. Para restringir os administradores do workspace a alterarem apenas o proprietário do trabalho para si mesmos, consulte Restringir administradores do workspace .
Configurar a execução máxima da concorrente
Clique em Editar execução concorrente em Configurações avançadas para definir o número máximo de execuções paralelas para esse trabalho. Databricks pula a execução se o trabalho já tiver atingido o número máximo de execuções ativas ao tentar iniciar uma nova execução. Defina esse valor maior do que default de 1 para realizar várias execuções do mesmo trabalho simultaneamente. Isso é útil, por exemplo, se o senhor acionar o seu Job em uma programação frequente e quiser permitir que execuções consecutivas se sobreponham umas às outras ou se quiser acionar várias execuções que diferem em seus parâmetros de entrada.
Habilitar a fila de execução de trabalhos
Para permitir que a execução de um trabalho seja colocada em uma fila para execução posterior quando não puder ser executada imediatamente devido a limites de simultaneidade, clique na opção Fila em Configurações avançadas. Consulte E se meu trabalho não puder ser executado devido a limites de simultaneidade?
Observação
O enfileiramento é ativado pelo site default para trabalhos criados por meio da interface do usuário após 15 de abril de 2024.
Configurar um tempo de conclusão esperado ou um tempo limite para um trabalho
O senhor pode configurar um limite de duração opcional para um trabalho, incluindo um tempo de conclusão esperado para o trabalho e um tempo de conclusão máximo para o trabalho. Para configurar a duração limite, clique em Set duração limite.
Para configurar um tempo de conclusão esperado para o trabalho, insira a duração esperada no campo Warning (Aviso ). Se o trabalho exceder esse limite, o senhor poderá configurar notificações para o trabalho de execução lenta. Consulte Configurar notificações para trabalhos de execução lenta ou atrasada.
Para configurar um tempo máximo de conclusão para um trabalho, insira a duração máxima no campo Timeout (Tempo limite ). Se o trabalho não for concluído nesse período, o site Databricks definirá seu status como "Timed Out" e o trabalho será interrompido.
Editar uma tarefa
Para definir as opções de configuração da tarefa:
Clique em fluxo de trabalho na barra lateral.
Na coluna Nome, clique no nome do cargo.
Clique na tarefa tab e selecione a tarefa a ser editada.
Definir dependências de tarefas
O senhor pode definir a ordem de execução da tarefa em um Job usando o menu suspenso Depends on (Depende de ). O senhor pode definir esse campo para uma ou mais tarefas no trabalho.
Observação
Depende de não é visível se o trabalho consistir em apenas uma tarefa.
A configuração das dependências da tarefa cria um gráfico acíclico direcionado (DAG) da execução da tarefa, uma forma comum de representar a ordem de execução no programador de trabalhos. Por exemplo, considere o seguinte trabalho que consiste em quatro tarefas:
A tarefa 1 é a tarefa raiz e não depende de nenhuma outra tarefa.
A tarefa 2 e a tarefa 3 dependem de a tarefa 1 ser concluída primeiro.
Por fim, a tarefa 4 depende da conclusão bem-sucedida da tarefa 2 e da tarefa 3.
Databricks executar a tarefa upstream antes de executar a tarefa downstream, executando o maior número possível de tarefas em paralelo. O diagrama a seguir ilustra a ordem de processamento dessas tarefas:
Configurar um cluster para uma tarefa
Para configurar o cluster onde a tarefa será executada, clique no menu suspenso do cluster. O senhor pode editar um trabalho compartilhado cluster, mas não pode excluir um trabalho compartilhado cluster se outras tarefas ainda o utilizarem.
Para saber mais sobre como selecionar e configurar clusters para executar tarefas, consulte Usar a computação do Databricks com seus jobs.
Configurar a biblioteca dependente
A biblioteca dependente será instalada no site cluster antes da execução da tarefa. O senhor deve definir todas as dependências da tarefa para garantir que elas sejam instaladas antes da execução do começar. Siga as recomendações em gerenciar dependências de biblioteca para especificar as dependências.
Configurar um tempo de conclusão esperado ou um tempo limite para uma tarefa
O senhor pode configurar um limite de duração opcional para uma tarefa, incluindo um tempo de conclusão esperado para a tarefa e um tempo de conclusão máximo para a tarefa. Para configurar a duração limite, clique em duração limite.
Para configurar o tempo de conclusão esperado da tarefa, insira a duração no campo Warning (Aviso ). Se a tarefa exceder esse limite, um evento será acionado. O senhor pode usar esse evento para notificar quando uma tarefa estiver sendo executada lentamente. Consulte Configurar notificações para trabalhos de execução lenta ou atrasada.
Para configurar um tempo máximo de conclusão para uma tarefa, insira a duração máxima no campo Tempo limite. Se a tarefa não for concluída nesse período, o Databricks definirá seu status como "Timed Out".
Configurar uma política de repetição para uma tarefa
Para configurar uma política que determina quando e quantas vezes a execução de tarefas com falha é repetida, clique em + Add (Adicionar ) ao lado de Retries (Tentativas). O intervalo de nova tentativa é calculado em milissegundos entre o início da execução com falha e a execução de nova tentativa subsequente.
Observação
Se o senhor configurar Timeout e Retries, o timeout se aplica a cada retry.