Inclinação e derramamento

Derramamento

A primeira coisa a se observar em um estágio de longa duração é se há derramamento.

Na parte superior da página do estágio, o senhor verá os detalhes, que podem incluir estatísticas sobre o derramamento:

Estatísticas de derramamento

Spill é o que acontece quando Spark execução tem pouca memória. É preciso começar a mover os dados da memória para o disco, e isso pode ser bastante caro. Isso é mais comum durante o embaralhamento de dados.

Se o senhor não vir nenhuma estatística para derramamento, isso significa que o palco não tem nenhum derramamento. Se o palco tiver algum vazamento, consulte este guia sobre como lidar com o vazamento causado pelo embaralhamento.

Inclinação

A próxima coisa que queremos verificar é se há distorção. A distorção ocorre quando uma ou apenas algumas tarefas levam muito mais tempo do que as demais. Isso resulta em uma má utilização do cluster e em um trabalho mais longo.

Role a tela para baixo até o Resumo das métricas. A principal coisa que estamos procurando é que a duração máxima seja muito maior do que a duração do percentil 75. A captura de tela abaixo mostra um estágio saudável, em que o 75º percentil e o máximo são iguais:

Estatísticas de inclinação

Se a duração máxima for 50% maior do que o 75º percentil, o senhor pode estar sofrendo de distorção.

Se o senhor observar distorção, saiba mais sobre a correção de distorção aqui.

Sem distorção ou vazamento

Se o senhor não vir distorção ou derramamento, volte para a página Job para ter uma visão geral do que está acontecendo. Role até a parte superior da página e clique em Associated Job Ids:

Estágio para Job

Se o estágio não tiver derramamento ou distorção, consulte Spark stage high I/O para os próximos passos.