Spark motorista sobrecarregado

Então, o senhor determinou que seu motorista está sobrecarregado. O motivo mais comum para isso é que há muitos aplicativos concorrente em execução no site cluster. Isso pode ocorrer devido ao excesso de transmissões, consultas ou Spark trabalhos (alguns clientes usam threads para executar vários spark jobs simultaneamente).

Também pode ser que o senhor esteja executando um código que não seja do Spark em seu cluster e que esteja mantendo o driver ocupado. Se o senhor observar lacunas em sua linha do tempo causadas pela execução de código nãoSpark, isso significa que seu funcionário está parado e provavelmente desperdiçando dinheiro durante as lacunas. Talvez isso seja intencional e inevitável, mas se o senhor puder escrever esse código para usar o Spark, utilizará totalmente o cluster. Comece com este tutorial para aprender a trabalhar com Spark.

Se o senhor tiver muitas coisas em execução no cluster simultaneamente, terá três opções:

  • Aumentar o tamanho de seu driver

  • Reduzir a simultaneidade

  • Distribuir a carga em vários clusters

Databricks Recomenda que o senhor tente primeiro dobrar o tamanho do driver e veja como isso afeta seu Job.