メインコンテンツまでスキップ

Spark UIを使用したコストとパフォーマンスの問題の診断

このガイドでは、Spark UI を使用してコストとパフォーマンスの問題を診断する方法について説明します。これはステップバイステップのガイドであり、実用的なハウツーです。Spark UI の各ページの機能を説明するだけでなく、何を探すべきか、それが何を意味するのかを教えてくれます。ドライバー、ワーカー、エグゼキューター、ステージ、タスクの概念に詳しくない場合は、Spark のアーキテクチャを確認することをお勧めします。

さまざまな最適化ツールの包括的なリストをお探しの場合は、 Databricks 最適化ガイドをご利用ください。 最適化ガイドのセクションは、この Spark UI ガイドで参照されています。

このガイドの使い方

ガイドをナビゲートするには、各ページに埋め込まれたリンクを使用して、次の手順に進みます。 このガイドには、次の手順が順番に含まれています。

  1. ジョブ タイムラインを使用して主要な問題を特定する
  2. 最長のステージを見る
  3. ゆがみやこぼれがないか探す
  4. 最長ステージが I/O バウンドであるかどうかの判別
  5. ステージ・ランタイムが遅い他の原因を探す

さっそく始めましょう!

Spark UIを開く方法

  1. クラスタリングのページに移動します。

    コンピュートに移動します

  2. [Spark UI ] をクリックします。

    SparkUI に移動します

次のステップ

Spark UI を開いたので、次にイベント タイムラインを確認して、パイプラインまたはクエリの詳細を確認します。「ジョブのタイムライン」を参照してください。