Pular para o conteúdo principal

Diagnosticar problemas de custo e desempenho usando o Spark UI

Este guia orienta o senhor sobre como usar o site Spark UI para diagnosticar problemas de custo e desempenho. É um guia passo a passo e um guia prático de como fazer. Em vez de fornecer apenas uma explicação do que cada página do site Spark UI faz, ele informa o que o senhor deve procurar e o que isso significa. Se o senhor não estiver familiarizado com os conceitos de driver, worker, executor, estágios e tarefa, talvez queira rever a arquitetura Spark.

Se o senhor estiver procurando uma lista abrangente de várias ferramentas de otimização, use o guia de otimização da Databricks. As seções do guia de otimização são referenciadas neste guia do Spark UI.

Como usar este guia

Para navegar pelo guia, use os links incorporados em cada página para ir para a próxima etapa. O guia contém as seguintes etapas em ordem:

  1. Use o cronograma de trabalhos para identificar os principais problemas
  2. Veja o estágio mais longo
  3. Procure distorção ou derrame
  4. Determine se o estágio mais longo está vinculado à E/S
  5. Procure outras causas de tempo de execução em estágios lentos

Vamos começar!

Como abrir o Spark UI

  1. Navegue até a página de seu clustering:

    Navegar para computar

  2. Clique em Spark UI :

    Navegue até SparkUI

Próxima etapa

Agora que o senhor abriu o site Spark UI, analise a linha do tempo do evento para saber mais sobre o seu pipeline ou consulta. Veja o cronograma de empregos.