メインコンテンツまでスキップ

スキューとスピル

こぼれ

長期にわたるステージで最初に探すべきことは、 流出があるかどうかです。

ステージのページの上部には、流出に関する統計を含む詳細が表示されます。

スピルの統計

スピルとは、実行 Spark メモリが不足しているときに発生する現象です。 メモリからディスクへのデータの移動を開始しますが、これは非常に高価になる可能性があります。 これは、データシャッフル中に最も一般的です。

スピルの統計が表示されない場合は、ステージにスピルがないことを意味します。ステージにスピルがある場合は、シャッフルによるスピルの対処方法について 、このガイド を参照してください。

スキュー

次に調べたいのは、 歪みがあるかどうかです。スキューとは、1つまたはいくつかのタスクが他のタスクよりもはるかに時間がかかることです。これにより、クラスタリングの使用率が低下し、ジョブが長くなります。

Summary メトリクス まで下にスクロールします。私たちが探している主なものは、 最大 デュレーションが75パーセンタイルのデュレーションよりもはるかに高いことです。以下のスクリーンショットは、75パーセンタイルと 最大 が同じである健康なステージを示しています。

スキュー統計

最大期間が75パーセンタイルより50%長い場合は、スキューが発生している可能性があります。

スキューが見られる場合は、スキューの修正方法についてこちらで確認してください。

スキューやこぼれはありません

スキューやスピルが見つからない場合は、ジョブページに戻って、何が起こっているのかの概要を確認してください。ページの上部までスクロールし、[ 関連付けられたジョブ ID] をクリックします。

ステージからジョブへ

ステージにスピルやスキューがない場合は、次の手順について 「Spark ステージの高 I/O 」を参照してください。