メインコンテンツまでスキップ

Spark での長いステージの診断

まず、ジョブの最も長いステージを特定します。 ジョブのページの一番下までスクロールしてステージのリストを表示し、期間順に並べます。

ロングステージ

ステージI/Oの詳細

このステージが何をしていたかについての高レベルのデータを見るには、 入力出力シャッフル読み取り 、および シャッフル書き込み の列を見てください。

ロングステージI/O

列の意味は次のとおりです。

  • インプット: このステージがストレージから読み取ったデータの量。 これは、Delta、Parquet、CSVなどからの読み取りである可能性があります。
  • アウトプット: このステージがストレージに書き込んだデータの量。 これは、Delta、Parquet、CSVなどへの書き込みである可能性があります。
  • シャッフル読み取り: このステージが読み取ったシャッフル データの量。
  • シャッフル書き込み: このステージで書き込まれたシャッフル データの量。

シャッフルが何であるかに詳しくない場合は、今がそれが何を意味するのか を学ぶ 良い機会です。

これらの番号は、後で必要になる可能性があるため、メモしておいてください。

タスクの数

長いステージのタスクの数は、問題の方向性を示すことができます。 タスクの数は、以下で確認できます。

タスク数の決定

1 つのタスクが表示される場合は、問題の兆候である可能性があります。 詳細については、「 One Spark タスク」を参照してください。

ステージの詳細を見る

ステージに複数のタスクがある場合は、さらに調査する必要があります。 ステージの説明にあるリンクをクリックすると、最も長いステージに関する詳細情報が表示されます。

オープンステージ情報

ステージのページに移動したので、「 スキューとスピル」を参照してください。