失敗したジョブまたはエグゼキューターが削除されました
したがって、失敗したジョブまたは削除されたエグゼキューターが表示されています。
エグゼキューターが削除される最も一般的な理由は次のとおりです。
- オートスケール : この場合は想定されるものであり、エラーではありません。 「オートスケールを有効にする」を参照してください。
- スポットインスタンスの損失 : クラウドプロバイダーは VM を回収しています。 スポットインスタンスの詳細については、 こちらを参照してください。
- エグゼキューターのメモリが不足している
失敗したジョブ
失敗しているジョブを見つけた場合は、それらをクリックしてそのページに移動します。 次に、下にスクロールして、失敗したステージと失敗の理由を確認します。
一般的なエラーが表示される場合があります。 説明文のリンクをクリックして、詳細情報を取得できるかどうかを確認してください。
このページを下にスクロールすると、各タスクが失敗した理由を確認できます。 この場合、メモリの問題があることが明らかになっています。
失敗しているエグゼキューター
エグゼキューターが失敗した理由を調べるには、まずコンピュートの イベントログ をチェックして、エグゼキューターが失敗した理由の説明があるかどうかを確認する必要があります。 たとえば、スポットインスタンスを使用していて、クラウドプロバイダーがそれらを取り戻している可能性があります。
エグゼキューターの喪失を説明するイベントがあるかどうかを確認します。 たとえば、クラスターのサイズが変更されている、またはスポットインスタンスが失われていることを示すメッセージが表示される場合があります。
- スポットインスタンスを使用している場合は、「スポットインスタンスを失う」を参照してください。
- コンピュートがオートスケールでサイズ変更された場合、それは予期されたものであり、エラーではありません。 「クラスターのサイズ変更の詳細」を参照してください。
イベント ログに情報が表示されない場合は、 Spark UI に戻り、[ エグゼキューター ] タブをクリックします。
ここでは、障害が発生したエグゼキューターからログを取得できます。
次のステップ
ここまで来た場合、最も可能性の高い説明はメモリの問題です。 次のステップは、メモリの問題を掘り下げることです。 Spark メモリの問題を参照してください。