Muitos pequenos Spark Trabalho

Se o senhor vir muitos trabalhos pequenos, é provável que esteja fazendo muitas operações com dados relativamente pequenos (<10GB). Pequenas operações levam apenas alguns segundos cada uma, mas elas se somam, e o tempo gasto em overhead por operação também se soma.

A melhor abordagem para acelerar um trabalho pequeno é executar várias operações em paralelo. Delta Live Tables faz isso automaticamente para o senhor.

Outras opções incluem:

  • Separe suas operações em vários notebooks e execute-as em paralelo no mesmo cluster usando o Job multitarefa.

  • Use Pythono ThreadPoolExecutor do ou outra abordagem multi-threading para executar consultas em paralelo.

  • Use o SQL warehouse se todas as suas consultas forem escritas em SQL. O SQL warehouse escala muito bem para a execução de muitas consultas em paralelo, pois foi projetado para esse tipo de carga de trabalho.