Pular para o conteúdo principal

Inclina e derrama

Derrame

A primeira coisa a se observar em um estágio de longa duração é se há vazamento.

No topo da página da etapa, você verá os detalhes, que podem incluir estatísticas sobre o jogo:

Estatísticas do jogo

Spill é o que acontece quando Spark execução tem pouca memória. É preciso começar a mover os dados da memória para o disco, e isso pode ser bastante caro. É mais comum durante o embaralhamento de dados.

Se você não vê nenhuma estatística de derramamento, isso significa que o estágio não tem nenhum vazamento. Se o palco tiver algum vazamento, consulte este guia sobre como lidar com o vazamento causado pelo embaralhamento.

Inclinar

A próxima coisa que queremos verificar é se há distorção. A distorção ocorre quando uma ou apenas algumas tarefas levam muito mais tempo do que as demais. Isso resulta em uma utilização ruim do clustering e em um trabalho mais longo.

Role a tela para baixo até o Resumo das métricas . A principal coisa que estamos procurando é que a duração máxima seja muito maior do que a duração do percentil 75. A captura de tela abaixo mostra um estágio saudável, em que o 75º percentil e o máximo são iguais:

Estatísticas da Skew

Se a duração máxima for 50% maior do que o 75º percentil, o senhor pode estar sofrendo de distorção.

Se você observar distorção, saiba mais sobre as etapas de correção de distorção aqui.

Sem distorção ou derramamento

Se o senhor não vir distorção ou derramamento, volte à página Job para ter uma visão geral do que está acontecendo. Role até a parte superior da página e clique em Associated Job Ids :

Estágio para Job

Se o estágio não tiver derramamento ou distorção, consulte E/S alta do estágio Spark para saber as próximas etapas.