メインコンテンツまでスキップ

多くの小さな Spark ジョブ

小さなジョブが多い場合は、比較的小さなデータ (<10GB) に対して多くの操作を行っている可能性があります。小さな操作はそれぞれ数秒しかかかりませんが、合計され、操作ごとのオーバーヘッドに費やされる時間も加算されます。

小規模なジョブを高速化するための最善のアプローチは、複数の操作を並行して実行することです。LakeFlow Pipelines がこれを自動的に実行します。

その他のオプションは次のとおりです。

操作を複数のノートブックに分割し、マルチタスクジョブを使用して同じクラスターで並列に実行します。
SQLすべてのクエリ SQLで記述されている場合は、ウェアハウスを使用してください。ウェアハウスSQL、このタイプのワークロード用に設計されているため、並列に実行される多くのクエリに対して非常に適切に拡張できます。
ノートブックをパラメータ化し、for each タスクを使用してノートブックを複数回並列に実行します。 並行処理を使用して 、並列化のレベルを設定します。これは、サーバレスコンピュートとうまく連携します。