Muitos pequenos Spark Trabalho
Se o senhor vir muitos trabalhos pequenos, é provável que esteja fazendo muitas operações com dados relativamente pequenos (<10GB). Pequenas operações levam apenas alguns segundos cada uma, mas elas se somam, e o tempo gasto em overhead por operação também se soma.
A melhor abordagem para acelerar um trabalho pequeno é executar várias operações em paralelo. Delta Live Tables faz isso automaticamente para o senhor.
Outras opções incluem:
Separe suas operações em vários notebooks e execute-as em paralelo no mesmo cluster usando o Job multitarefa.
Use Pythono ThreadPoolExecutor do ou outra abordagem multi-threading para executar consultas em paralelo.
Use o SQL warehouse se todas as suas consultas forem escritas em SQL. O SQL warehouse escala muito bem para a execução de muitas consultas em paralelo, pois foi projetado para esse tipo de carga de trabalho.