メインコンテンツまでスキップ

Spark UIを使用したコストとパフォーマンスの問題の診断

このガイドでは、Spark UI を使用してコストとパフォーマンスの問題を診断する方法について説明します。 これはステップバイステップのガイドであり、実用的なハウツーです。 Spark UI の各ページの機能を説明するだけでなく、何を探すべきか、それが何を意味するのかを教えてくれます。 ドライバー、ワーカー、エグゼキューター、ステージ、タスクの概念に詳しくない場合は、Spark のアーキテクチャを確認することをお勧めします。

さまざまな最適化ツールの包括的なリストをお探しの場合は、 Databricks 最適化ガイドをご利用ください。 最適化ガイドのセクションは、この Spark UI ガイドで参照されています。

このガイドの使い方

ガイドをナビゲートするには、各ページに埋め込まれたリンクを使用して、次の手順に進みます。 このガイドには、次の手順が順番に含まれています。

  1. ジョブ タイムラインを使用して主要な問題を特定する
  2. 最長のステージを見る
  3. ゆがみやこぼれがないか探す
  4. 最長ステージが I/O バウンドであるかどうかの判別
  5. ステージ・ランタイムが遅い他の原因を探す

さあ始めましょう!

Spark UIを開く方法

  1. クラスターのページに移動します。

    コンピュートに移動します

  2. [Spark UI ] をクリックします。

    SparkUI に移動します

次のステップ

Spark UI を開いたので、次にイベント タイムラインを確認して、パイプラインまたはクエリの詳細を確認します。 「ジョブのタイムライン」を参照してください。