メインコンテンツまでスキップ

1 つの Spark タスク

タスクが 1 つだけの長時間実行されるステージが表示される場合は、問題の兆候である可能性があります。 この 1 つのタスクが実行されている間、1 つの CPU のみが使用され、残りのクラスターはアイドル状態になる可能性があります。 これは、次の状況で最も頻繁に発生します。

  • 小さなデータで高価なUDF
  • PARTITION BY ステートメントのないウィンドウ関数
  • 分割できないファイルの種類から読み取っています。 これは、ファイルを複数の部分で読み取ることができないため、1つの大きなタスクが発生することを意味します。 Gzip は、分割できないファイルの種類の一例です。
  • JSON または CSV ファイルの読み取り時の multiLine オプションの設定
  • 大きなファイルのスキーマ推論
  • 再配分(1)または合体(1)の使用