Pular para o conteúdo principal

Uma tarefa do Spark

Se o senhor vir um estágio de longa duração com apenas uma tarefa, isso provavelmente é sinal de um problema. Enquanto essa tarefa estiver em execução, apenas uma CPU será utilizada e o restante do clustering poderá ser parado. Isso acontece com mais frequência nas seguintes situações:

  • UDF caro em dados pequenos
  • Função de janela sem instrução PARTITION BY
  • Lendo a partir de um tipo de arquivo inseparável. Isso significa que o arquivo não pode ser lido em várias partes, então o senhor acaba com uma grande tarefa. O Gzip é um exemplo de um tipo de arquivo que não pode ser dividido.
  • Definir a opção multiLine ao ler um arquivo JSON ou CSV
  • Inferência de esquema de um arquivo grande
  • Uso de repartição (1) ou coalescência (1)