Solucionar problemas e reparar falhas no trabalho

Suponha que o senhor tenha sido notificado (por exemplo, por meio de uma notificação do email, de uma solução de monitoramento ou da interface do usuário do LakeFlow Jobs) de que uma tarefa falhou na execução do seu trabalho. As etapas deste artigo fornecem orientação para ajudá-lo a identificar a causa da falha, sugestões para corrigir os problemas encontrados e como reparar a falha na execução do Job.

Identifique a causa da falha

Para localizar a tarefa com falha na UI de LakeFlow Jobs:

Clique em Job execução na barra lateral.
Na coluna Name (Nome ), clique em um nome de trabalho. A execução tab mostra a execução ativa e a execução concluída, incluindo qualquer execução com falha. A matriz view na execução tab mostra um histórico de execução do trabalho, incluindo execuções bem-sucedidas e malsucedidas para cada tarefa do trabalho. A execução de uma tarefa pode não ser bem-sucedida porque falhou ou foi ignorada porque uma tarefa dependente falhou. Usando a matriz view, o senhor pode identificar rapidamente as falhas de tarefa para a execução do seu trabalho.
Passe o mouse sobre uma tarefa com falha para ver os metadados associados. Esses metadados incluem as datas de início e término, o status, os detalhes do clustering de duração e, em alguns casos, uma mensagem de erro.
Para ajudar a identificar a causa da falha, clique na tarefa com falha. A página de detalhes da execução da tarefa é exibida, mostrando a saída da tarefa, a mensagem de erro e os metadados associados.

Corrija a causa da falha

Sua tarefa pode ter falhado por vários motivos, como, por exemplo, um problema de qualidade de dados, uma configuração incorreta ou um compute recurso insuficiente. A seguir, são sugeridas etapas para corrigir algumas causas comuns de falhas na tarefa:

Se a falha estiver relacionada à configuração da tarefa, clique em Editar tarefa . A configuração da tarefa abre em um novo tab. Atualize a configuração da tarefa conforme necessário e clique em Save task (Salvar tarefa ).
Se o problema estiver relacionado ao recurso de clustering, por exemplo, instâncias insuficientes, há várias opções:
- Se o seu trabalho estiver configurado para usar um cluster de trabalho, considere o uso de clusters compartilhados em todo o propósito.
- Alterar a configuração de clustering. Clique em Edit task (Editar tarefa ). No painel de detalhes doJob , em computação , clique em Configure para configurar o clustering. O senhor pode alterar o número de trabalhadores, os tipos de instância ou outras opções de configuração de clustering. O senhor também pode clicar em trocar para mudar para outro cluster disponível. Para garantir o uso ideal dos recursos disponíveis, analise as práticas recomendadas para a configuração de clustering.
- Se necessário, solicite a um administrador que aumente as cotas de recurso na nuvem account e na região em que seu workspace está implantado.
Se a falha for causada por exceder o limite máximo de execução da concorrente, o senhor pode:
- Aguarde a conclusão de outra execução.
- Clique em Edit task (Editar tarefa ). No painel de detalhes do siteJob , clique em Edit concorrente exec , digite um novo valor para Maximum concorrente exec e clique em Confirm .

Em alguns casos, a causa de uma falha pode estar a montante do seu Job; por exemplo, uma fonte externa de dados não está disponível. O senhor ainda pode aproveitar o recurso de execução de reparo abordado na próxima seção depois que o problema externo for resolvido.

A reexecução falhou e a tarefa foi ignorada

Depois de identificar a causa da falha, o senhor pode reparar o trabalho com várias tarefas com falha ou cancelado executando apenas o subconjunto de tarefas sem sucesso e qualquer tarefa dependente. Como a tarefa bem-sucedida e qualquer tarefa que dependa dela não são reexecutadas, esse recurso reduz o tempo e o recurso necessários para recuperar a execução de um trabalho malsucedido.

O senhor pode alterar as configurações do trabalho ou da tarefa antes de reparar a execução do trabalho. Tarefas malsucedidas são reexecutadas com as configurações atuais de trabalho e tarefa. Por exemplo, se o senhor alterar o caminho para um Notebook ou uma configuração de clustering, a tarefa será reexecutada com as configurações atualizadas do Notebook ou do clustering.

veja o histórico de toda a tarefa execução na página de detalhes da tarefa execução .

nota

Se uma ou mais tarefas compartilharem um cluster de trabalho, uma execução de reparo criará um novo cluster de trabalho. Por exemplo, se a execução original usou o Job clustering my_job_cluster, a primeira execução de reparo usa o novo Job clustering my_job_cluster_v1, permitindo que o senhor veja facilmente as configurações de clustering e clustering usadas pela execução inicial e por qualquer execução de reparo. As configurações para my_job_cluster_v1 são as mesmas que as configurações atuais para my_job_cluster.
O reparo é compatível apenas com o trabalho que orquestra duas ou mais tarefas.
O valor de duração exibido na execução tab inclui o tempo em que a primeira execução começou até o momento em que a última execução de reparo foi concluída. Por exemplo, se uma execução falhou duas vezes e foi bem-sucedida na terceira execução, a duração inclui o tempo de todas as três execuções.

Para reparar uma falha na execução do trabalho:

Clique no link da execução com falha na coluna de tempo de início da tabela de execução do trabalho ou clique na execução com falha na matriz view. A página de detalhes da execuçãoJob é exibida.
Clique em Reparar execução . A caixa de diálogo Execução de trabalho de reparo é exibida, listando todas as tarefas malsucedidas e qualquer tarefa dependente que será reexecutada.
Para adicionar ou editar parâmetros para a tarefa a ser reparada, insira os parâmetros na caixa de diálogo Repair Job exec . Os parâmetros inseridos pelo senhor na caixa de diálogo Repair Job Execution substituem os valores existentes. Na execução de reparos subsequentes, o senhor pode retornar um parâmetro ao seu valor original limpando o endereço key e o valor na caixa de diálogo Repair Job Execution .
Clique em Reparar execução na caixa de diálogo Reparar execução de trabalho .
Após a conclusão da execução do reparo, a matriz view é atualizada com uma nova coluna para a execução reparada. Todas as tarefas que falharam e que estavam vermelhas agora devem estar verdes, indicando uma execução bem-sucedida de todo o trabalho.

Visualizar e gerenciar falhas contínuas de trabalho

Quando as falhas consecutivas de um trabalho contínuo excedem um limite, o LakeFlow Jobs usa o backoff exponencial para tentar novamente o trabalho. Quando um trabalho está no estado de backoff exponencial, uma mensagem no painel de detalhesJob exibe informações, inclusive:

O número de falhas consecutivas.
O período para que o trabalho seja executado sem erros para ser considerado bem-sucedido.
O tempo antes da próxima tentativa se nenhuma execução estiver ativa no momento.

Para cancelar a execução ativa, redefinir o período de repetição e iniciar uma nova execução do Job, clique em Reiniciar execução .

Use o Databricks Assistant para diagnosticar erros

Databricks Assistant ajuda a diagnosticar erros no Job.

Para diagnosticar um trabalho com o Assistant:

Abra o trabalho com falha na interface do usuário de trabalhos.
Selecione Diagnosticar erro .

Failed Job (Trabalho com falha) com o botão Diagnose Error (Diagnosticar erro).

Identifique a causa da falha​

Corrija a causa da falha​

A reexecução falhou e a tarefa foi ignorada​

Visualizar e gerenciar falhas contínuas de trabalho​

Use o Databricks Assistant para diagnosticar erros​

Identifique a causa da falha

Corrija a causa da falha

A reexecução falhou e a tarefa foi ignorada

Visualizar e gerenciar falhas contínuas de trabalho

Use o Databricks Assistant para diagnosticar erros