Inclina e derrama
Derrame
A primeira coisa a se observar em um estágio de longa duração é se há vazamento.
No topo da página da etapa, você verá os detalhes, que podem incluir estatísticas sobre o jogo:
Spill é o que acontece quando Spark execução tem pouca memória. É preciso começar a mover os dados da memória para o disco, e isso pode ser bastante caro. É mais comum durante o embaralhamento de dados.
Se você não vê nenhuma estatística de derramamento, isso significa que o estágio não tem nenhum vazamento. Se o palco tiver algum vazamento, consulte este guia sobre como lidar com o vazamento causado pelo embaralhamento.
Inclinar
A próxima coisa que queremos verificar é se há distorção. A distorção ocorre quando uma ou apenas algumas tarefas levam muito mais tempo do que as demais. Isso resulta em uma utilização ruim do clustering e em um trabalho mais longo.
Role a tela para baixo até o Resumo das métricas . A principal coisa que estamos procurando é que a duração máxima seja muito maior do que a duração do percentil 75. A captura de tela abaixo mostra um estágio saudável, em que o 75º percentil e o máximo são iguais:
Se a duração máxima for 50% maior do que o 75º percentil, o senhor pode estar sofrendo de distorção.
Se você observar distorção, saiba mais sobre as etapas de correção de distorção aqui.
Sem distorção ou derramamento
Se o senhor não vir distorção ou derramamento, volte à página Job para ter uma visão geral do que está acontecendo. Role até a parte superior da página e clique em Associated Job Ids :
Se o estágio não tiver derramamento ou distorção, consulte E/S alta do estágio Spark para saber as próximas etapas.