Uma tarefa do Spark

Se o senhor vir um estágio de longa duração com apenas uma tarefa, isso provavelmente é sinal de um problema. Enquanto essa tarefa estiver em execução, apenas uma CPU será utilizada e o restante do clustering poderá ser parado. Isso acontece com mais frequência nas seguintes situações:

UDF caro em dados pequenos
Função de janela sem instrução PARTITION BY
Lendo a partir de um tipo de arquivo inseparável. Isso significa que o arquivo não pode ser lido em várias partes, então o senhor acaba com uma grande tarefa. O Gzip é um exemplo de um tipo de arquivo que não pode ser dividido.
Definir a opção multiLine ao ler um arquivo JSON ou CSV
Inferência de esquema de um arquivo grande
Uso de repartição (1) ou coalescência (1)