Uma tarefa do Spark
Se o senhor vir um estágio de longa duração com apenas uma tarefa, isso provavelmente é sinal de um problema. Enquanto essa tarefa estiver em execução, apenas uma CPU será utilizada e o restante do clustering poderá ser parado. Isso acontece com mais frequência nas seguintes situações:
- UDF caro em dados pequenos
 - Função de janela sem instrução 
PARTITION BY - Lendo a partir de um tipo de arquivo inseparável. Isso significa que o arquivo não pode ser lido em várias partes, então o senhor acaba com uma grande tarefa. O Gzip é um exemplo de um tipo de arquivo que não pode ser dividido.
 - Definir a opção 
multiLineao ler um arquivo JSON ou CSV - Inferência de esquema de um arquivo grande
 - Uso de repartição (1) ou coalescência (1)