Spark UI を使用してコストとパフォーマンスの問題を診断する

このガイドでは、Spark UI を使用してコストとパフォーマンスの問題を診断する方法について説明します。 これはステップバイステップのガイドであり、実用的なハウツーです。 Spark UI の各ページの機能についての説明だけではなく、何に注意すればよいか、それが何を意味するかを教えてくれます。 ドライバー、ワーカー、エグゼキューター、ステージ、タスクの概念に精通していない場合は、Spark アーキテクチャを確認することをお勧めします。

さまざまな最適化ツールの包括的なリストを探している場合は、 Databricks 最適化ガイドを使用してください。 最適化ガイドのセクションは、この Spark UI ガイドで参照されています。

このガイドの使用方法

ガイド内を移動するには、各ページに埋め込まれているリンクを使用して次のステップに進みます。 このガイドには、次のステップが順番に記載されています。

  1. ジョブ タイムラインを使用して主要な問題を特定する

  2. 最長のステージを見てください

  3. 傾きやこぼれを探します

  4. 最長ステージが I/O バウンドかどうかの確認

  5. ステージが遅い他の原因を探す

さあ始めましょう!

Spark UIを開く方法

  1. クラスターのページに移動します。

    コンピュートへ移動
  2. Spark UIをクリックします:

    SparkUI に移動します

次のステップ

Spark UI を開いたら、次にイベント タイムラインを確認して、パイプラインまたはクエリの詳細を確認します。 「ジョブのタイムライン」を参照してください。