Diagnosticando uma tarefa demorada em Spark

Comece identificando o estágio mais longo do trabalho. Role até a parte inferior da página do trabalho para ver a lista de estágios e ordene-os por duração:

Estágio longo

Detalhes do Stage I/O

Para ver os dados de alto nível sobre o que esse estágio estava fazendo, observe as colunas Input , Output , leitura aleatória e gravação aleatória :

E/S de longo estágio

As colunas significam o seguinte:

Entrada: a quantidade de dados que esse estágio leu do armazenamento. Isso pode ser a leitura de Delta, Parquet, CSV, etc.
Saída: quantos dados esse estágio gravou no armazenamento. Isso pode ser gravado em Delta, Parquet, CSV, etc.
leitura aleatória: A quantidade de dados embaralhados lidos por esse estágio.
gravação aleatória: A quantidade de dados aleatórios que este estágio escreveu.

Se você não está familiarizado com o que é shuffle, agora é um bom momento para aprender mais sobre o que isso significa.

Anote esses números, pois você provavelmente precisará deles mais tarde.

Número de tarefas

O número de tarefas no longo prazo pode indicar a direção do seu problema. Determine o número de tarefas olhando aqui:

Determinação do número de tarefas

Se o senhor vir uma tarefa, isso pode ser sinal de um problema. Para obter mais informações, consulte One Spark tarefa.

veja mais detalhes do palco

Se o estágio tiver mais de uma tarefa, recomendamos que você investigue mais a fundo. Clique no link na descrição da etapa para obter mais informações sobre a etapa mais longa:

Informações sobre o Open Stage

Agora que você está na página do palco, veja Skew and spill.

Detalhes do Stage I/O​

Número de tarefas​

veja mais detalhes do palco​

Detalhes do Stage I/O

Número de tarefas

veja mais detalhes do palco