Spark motorista sobrecarregado
Então você determinou que seu motorista está sobrecarregado. O motivo mais comum para isso é que há muitas coisas concorrentes em execução no clustering. Isso pode ocorrer devido ao excesso de transmissões, consultas ou Spark trabalhos (alguns clientes usam threads para executar vários spark jobs simultaneamente).
Também pode ser que o senhor esteja executando um código nãoSpark no seu clustering que esteja mantendo o driver ocupado. Se o senhor observar lacunas em sua linha do tempo causadas pela execução de código nãoSpark, isso significa que seu funcionário está parado e provavelmente desperdiçando dinheiro durante as lacunas. Talvez isso seja intencional e inevitável, mas se o senhor puder escrever esse código para usar Spark, utilizará totalmente o clustering. Comece com este tutorial para aprender a trabalhar com Spark.
Se o senhor tiver muitas coisas em execução no clustering simultaneamente, terá três opções:
- Aumente o tamanho do seu motorista
- Reduza a concorrência
- Distribuir a carga em vários clusters
Databricks recomenda que o senhor tente primeiro dobrar o tamanho do driver e veja como isso afeta seu trabalho.