Solucionar problemas e reparar falhas no trabalho

Suponha que o senhor tenha sido notificado (por exemplo, por meio de uma notificação do email, de uma solução de monitoramento ou da interface do usuário do Databricks Jobs) de que uma tarefa falhou em uma execução do seu Job do Databricks. Os passos deste artigo fornecem orientações para ajudá-lo a identificar a causa da falha, sugestões para corrigir os problemas que o senhor encontrar e como reparar a falha na execução do Job.

Identificar a causa da falha

Para localizar a tarefa com falha na interface do usuário do Databricks Jobs:

  1. Clique em Job execução Icon Job execução na barra lateral.

  2. Na coluna Name (Nome ), clique em um nome de trabalho. A execução tab mostra a execução ativa e a execução concluída, incluindo qualquer execução com falha. A matriz view na execução tab mostra um histórico de execução do Job, incluindo execuções bem-sucedidas e malsucedidas para cada tarefa do Job. A execução de uma tarefa pode não ser bem-sucedida porque falhou ou foi ignorada porque uma tarefa dependente falhou. Usando a matriz view, o senhor pode identificar rapidamente as falhas de tarefa para a execução do seu trabalho.

    Matriz view de execução do trabalho
  3. Passe o mouse sobre uma tarefa com falha para ver os metadados associados. Esses metadados incluem as datas de início e término, status, duração cluster detalhes e, em alguns casos, uma mensagem de erro.

  4. Para ajudar a identificar a causa da falha, clique na tarefa com falha. A página de detalhes da execução da tarefa é exibida, mostrando a saída da tarefa, a mensagem de erro e os metadados associados.

Corrigir a causa da falha

Sua tarefa pode ter falhado por vários motivos, como, por exemplo, um problema de qualidade de dados, uma configuração incorreta ou um compute recurso insuficiente. A seguir, são sugeridos os passos para corrigir algumas causas comuns de falhas na tarefa:

  • Se a falha estiver relacionada à configuração da tarefa, clique em Editar tarefa. A configuração da tarefa abre em um novo tab. Atualize a configuração da tarefa conforme necessário e clique em Save task (Salvar tarefa).

  • Se o problema estiver relacionado ao cluster recurso, por exemplo, instâncias insuficientes, há várias opções:

    • Se o seu trabalho estiver configurado para usar um Job cluster, considere o uso de um clustercompartilhado como todo-propósito.

    • Alterar a configuração do cluster. Clique em Edit task (Editar tarefa). No painel de detalhes doJob , em computação, clique em Configure para configurar o cluster. O senhor pode alterar o número de trabalhadores, os tipos de instância ou outras opções de configuração do site cluster. O senhor também pode clicar em trocar para mudar para outro site disponível cluster. Para garantir que o senhor esteja fazendo o melhor uso possível dos recursos disponíveis, analise as práticas recomendadas para a configuração do sitecluster .

    • Se necessário, solicite a um administrador que aumente as cotas de recurso em cloud account e na região em que seu workspace está implantado.

  • Se a falha for causada por exceder o limite máximo de execução da concorrente, o senhor pode:

    • Aguarde a conclusão de outra execução.

    • Clique em Edit task (Editar tarefa). No painel de detalhes do siteJob , clique em Edit concorrente exec, digite um novo valor para Maximum concorrente exec e clique em Confirm.

Em alguns casos, a causa de uma falha pode estar a montante do seu Job; por exemplo, uma fonte externa de dados não está disponível. O senhor ainda pode aproveitar o recurso de execução de reparo abordado na próxima seção depois que o problema externo for resolvido.

A reexecução falhou e a tarefa foi ignorada

Depois de identificar a causa da falha, o senhor pode reparar o trabalho com várias tarefas com falha ou cancelado executando apenas o subconjunto de tarefas sem sucesso e qualquer tarefa dependente. Como a tarefa bem-sucedida e qualquer tarefa que dependa dela não são reexecutadas, esse recurso reduz o tempo e o recurso necessários para recuperar a execução de um trabalho malsucedido.

O senhor pode alterar as configurações do trabalho ou da tarefa antes de reparar a execução do trabalho. Tarefas malsucedidas são reexecutadas com as configurações atuais de trabalho e tarefa. Por exemplo, se o senhor alterar o caminho para um Notebook ou uma configuração cluster, a tarefa será reexecutada com as configurações atualizadas do Notebook ou cluster.

veja o histórico de toda a tarefa execução na página de detalhes da tarefa execução.

Observação

  • Se uma ou mais tarefas compartilharem um Job cluster, uma execução de reparo criará um novo Job cluster. Por exemplo, se a execução original usou o Job cluster my_job_cluster, a primeira execução de reparo usa o novo Job cluster my_job_cluster_v1, permitindo que o senhor veja facilmente as configurações cluster e cluster usadas pela execução inicial e por qualquer execução de reparo. As configurações de my_job_cluster_v1 são as mesmas que as configurações atuais de my_job_cluster.

  • O reparo é compatível apenas com o trabalho que orquestra duas ou mais tarefas.

  • O valor de duração exibido na execução tab inclui o tempo em que a primeira execução começou até o momento em que a última execução de reparo foi concluída. Por exemplo, se uma execução falhou duas vezes e foi bem-sucedida na terceira execução, a duração inclui o tempo de todas as três execuções.

Para reparar uma falha na execução do trabalho:

  1. Clique no link da execução com falha na coluna de tempo de início da tabela de execução do trabalho ou clique na execução com falha na matriz view. A página de detalhes da execuçãoJob é exibida.

  2. Clique em Reparar execução. A caixa de diálogo Execução de trabalho de reparo é exibida, listando todas as tarefas malsucedidas e qualquer tarefa dependente que será reexecutada.

  3. Para adicionar ou editar parâmetros para a tarefa a ser reparada, insira os parâmetros na caixa de diálogo Repair Job exec. Os parâmetros inseridos pelo senhor na caixa de diálogo Repair Job Exec ution substituem os valores existentes. Na execução de reparos subsequentes, o senhor pode retornar um parâmetro ao seu valor original limpando o endereço key e o valor na caixa de diálogo Repair Job Exec ution.

  4. Clique em Reparar execução na caixa de diálogo Reparar execução de trabalho.

  5. Após a conclusão da execução do reparo, a matriz view é atualizada com uma nova coluna para a execução reparada. Todas as tarefas que falharam e que estavam vermelhas agora devem estar verdes, indicando uma execução bem-sucedida de todo o trabalho.

Visualizar e gerenciar falhas contínuas de trabalho

Quando as falhas consecutivas de um trabalho contínuo excedem um limite, o Databricks Jobs usa o backoff exponencial para tentar novamente o trabalho. Quando um trabalho está no estado de backoff exponencial, uma mensagem no painel de detalhesJob exibe informações, inclusive:

  • O número de falhas consecutivas.

  • O período para que o trabalho seja executado sem erros para ser considerado bem-sucedido.

  • O tempo antes da próxima tentativa se nenhuma execução estiver ativa no momento.

Para cancelar a execução ativa, redefinir o período de repetição e iniciar uma nova execução do Job, clique em Reiniciar execução.