タスクが 1 つだけの長時間実行されるステージが表示される場合は、問題の兆候である可能性があります。 この 1 つのタスクが実行されている間、1 つの CPU のみが使用され、残りのクラスターはアイドル状態になる可能性があります。 これは、次の状況で最も頻繁に発生します。
- 小さなデータで高価なUDF
PARTITION BY
ステートメントのないウィンドウ関数
- 分割できないファイルの種類から読み取っています。 これは、ファイルを複数の部分で読み取ることができないため、1つの大きなタスクが発生することを意味します。 Gzip は、分割できないファイルの種類の一例です。
- JSON または CSV ファイルの読み取り時の
multiLine
オプションの設定
- 大きなファイルのスキーマ推論
- 再配分(1)または合体(1)の使用