ステップ5. 品質問題の根本原因を特定する

反復ステップが強調表示されたワークフロー

このセクションのサンプル コードについては、GitHub リポジトリを参照してください。

所要時間:60分

要件

概要

品質問題の最も可能性の高い根本原因は、検索と生成のステップです。 最初に焦点を当てる場所を決定するには、前のステップで実行したMosaic AIエージェント評価LLM判定の出力を使用して、アプリの品質に影響を与える最も一般的な根本原因を特定します。

評価セットの各行には、次のようにタグ付けされます。

  • 総合評価: 通る または fail

  • 根本原因: Improve Retrieval または Improve Generation.

  • 根本原因の根拠: 根本原因が選択された理由の簡単な説明。

指示

このアプローチは、質問に対するグラウンドトゥルースの回答が評価セットに含まれているかどうかによって異なります。 これらの応答は、 expected_responseに格納されます。 使用可能な expected_response がある場合は、 グラウンド トゥルースが利用可能な場合の根本原因分析の表を使用します。 それ以外の場合は、 グラウンドトゥルースが利用できない場合の根本原因分析の表を使用します。

  1. B_quality_iteration/01_root_cause_quality_issues ノートブックを開きます。

  2. ユースケースに関連するセルを実行します(例:expected_responseがあるかどうか)。

  3. 出力テーブルを確認して、アプリケーションで最も頻繁な根本原因を特定します

  4. それぞれの根本原因について、以下の手順に従ってさらにデバッグし、潜在的な修正方法を特定します。

グラウンドトゥルースが利用可能な場合の根本原因分析

注:

各質問でどのドキュメントを取得する必要があるかについて、人間がラベル付けしたグラウンドトゥルースがある場合は、オプションで retrieval/llm_judged/chunk_relevance/precision/averageretrieval/ground_truth/document_recall/averageのスコアに置き換えることができます。

チャンクの関連性の精度

根拠

正確性

クエリとの関連性

問題の概要

根本原因

一般評価

<50%

検索が不十分です。

Improve Retrieval

fail

<50%

LLM は関連する応答を生成しますが、検索性は低いです。 たとえば、LLM は検索を無視し、トレーニング知識を使用して回答します。

Improve Retrieval

fail

<50%

✅ 又は ❌

検索品質は低いですが、LLM はそれでも正しい答えを取得します。

Improve Retrieval

fail

<50%

応答は検索に基づいていますが、検索は貧弱です。

Improve Retrieval

fail

<50%

関連する応答は、取得されたコンテキストに基づいていますが、検索は期待される応答に関連していない可能性があります。

Improve Retrieval

fail

<50%

✅ 又は ❌

検索により、LLM が正しく回答するのに十分な情報が見つかります。

None

通る

>50%

✅ 又は ❌

幻覚。

Improve Generation

fail

>50%

✅ 又は ❌

幻覚、正しいが、文脈にない詳細を生成する。

Improve Generation

fail

>50%

検索は良好ですが、LLM は関連する応答を提供しません。

Improve Generation

fail

>50%

検索と適切な応答は良好ですが、正しくありません。

Improve Generation

fail

>50%

問題ありません。

None

通る

グラウンドトゥルースが利用できない場合の根本原因分析

チャンクの関連性の精度

根拠

クエリとの関連性

問題の概要

根本原因

一般評価

<50%

検索品質が悪い。

Improve Retrieval

fail

<50%

検索品質が悪い。

Improve Retrieval

fail

<50%

応答は検索に基づいていますが、検索は貧弱です。

Improve Retrieval

fail

<50%

検索されたコンテキストに基づいており、関連性のある応答ですが、検索は不十分です。

Improve Retrieval

通る

>50%

幻覚。

Improve Generation

fail

>50%

幻覚。

Improve Generation

fail

>50%

検索は良好で根拠はありますが、LLM は関連する応答を提供しません。

Improve Generation

fail

>50%

良好な検索と適切な応答。 グラウンドトゥルースを収集して、答えが正しいかどうかを把握します。

None

通る

次のステップ

特定した問題をデバッグするには、次のページを参照してください。