Muitos pequenos Spark Trabalho

Se o senhor vir muitos trabalhos pequenos, é provável que esteja fazendo muitas operações com dados relativamente pequenos (<10GB). Pequenas operações levam apenas alguns segundos cada uma, mas elas se somam, e o tempo gasto em overhead por operação também se soma.

A melhor abordagem para acelerar um trabalho pequeno é executar várias operações em paralelo. LakeFlow O pipeline declarativo faz isso automaticamente para o senhor.

Outras opções incluem:

Separe suas operações em vários Notebooks e execute-os em paralelo no mesmo clustering usando o Job multitarefa.
Use o armazémSQL se todas as suas consultas estiverem escritas em SQL. SQL warehouse escala muito bem para muitas consultas executadas em paralelo, pois foram projetados para esse tipo de carga de trabalho.
Parametrize o Notebook e use o for each tarefa para executar o Notebook várias vezes em paralelo. Use Simultaneidade para definir o nível de paralelização. Isso funciona bem com serverless compute.