メインコンテンツまでスキップ

多くの小さな Spark ジョブ

小さなジョブが多い場合は、比較的小さなデータ (<10GB) に対して多くの操作を行っている可能性があります。 小さな操作はそれぞれ数秒しかかかりませんが、合計され、操作ごとのオーバーヘッドに費やされる時間も加算されます。

小さなジョブを高速化する最善の方法は、複数の操作を並行して実行することです。DLT はこれを自動的に行います。

その他のオプションは次のとおりです。

  • 操作を複数のノートブックに分割し、 マルチタスク ジョブを使用して同じクラスターで並列に実行します。
  • SQLすべてのクエリ SQLで記述されている場合は、 ウェアハウス を使用してください。ウェアハウスSQL、このタイプのワークロード用に設計されているため、並列に実行される多くのクエリに対して非常に適切に拡張できます。
  • ノートブックをパラメータ化し、for each タスクを使用してノートブックを複数回並列に実行します。 並行処理を使用して 、並列化のレベルを設定します。 これは 、サーバレス コンピュートとうまく連携します。