ステップ5. 品質問題の根本原因を特定する
![反復ステップが強調表示されたワークフロー](../../_images/workflow-iterate.png)
このセクションのサンプル コードについては、GitHub リポジトリを参照してください。
所要時間:60分
要件
POC の評価結果は MLflow で入手できます。 ステップ 4. POC の品質を評価する を実行した場合、結果は MLflow で確認できます。
前のステップからのすべての要件。
概要
品質問題の最も可能性の高い根本原因は、検索と生成のステップです。 最初に焦点を当てる場所を決定するには、前のステップで実行したMosaic AIエージェント評価LLM判定の出力を使用して、アプリの品質に影響を与える最も一般的な根本原因を特定します。
評価セットの各行には、次のようにタグ付けされます。
総合評価:
または
。
根本原因:
Improve Retrieval
またはImprove Generation
.根本原因の根拠: 根本原因が選択された理由の簡単な説明。
指示
このアプローチは、質問に対するグラウンドトゥルースの回答が評価セットに含まれているかどうかによって異なります。 これらの応答は、 expected_response
に格納されます。 使用可能な expected_response
がある場合は、 グラウンド トゥルースが利用可能な場合の根本原因分析の表を使用します。 それ以外の場合は、 グラウンドトゥルースが利用できない場合の根本原因分析の表を使用します。
B_quality_iteration/01_root_cause_quality_issues ノートブックを開きます。
ユースケースに関連するセルを実行します(例:expected_responseがあるかどうか)。
出力テーブルを確認して、アプリケーションで最も頻繁な根本原因を特定します
それぞれの根本原因について、以下の手順に従ってさらにデバッグし、潜在的な修正方法を特定します。
グラウンドトゥルースが利用可能な場合の根本原因分析
注:
各質問でどのドキュメントを取得する必要があるかについて、人間がラベル付けしたグラウンドトゥルースがある場合は、オプションで retrieval/llm_judged/chunk_relevance/precision/average
を retrieval/ground_truth/document_recall/average
のスコアに置き換えることができます。
チャンクの関連性の精度 |
根拠 |
正確性 |
クエリとの関連性 |
問題の概要 |
根本原因 |
一般評価 |
---|---|---|---|---|---|---|
<50% |
❌ |
❌ |
❌ |
検索が不十分です。 |
|
|
<50% |
❌ |
❌ |
✅ |
LLM は関連する応答を生成しますが、検索性は低いです。 たとえば、LLM は検索を無視し、トレーニング知識を使用して回答します。 |
|
|
<50% |
❌ |
✅ |
✅ 又は ❌ |
検索品質は低いですが、LLM はそれでも正しい答えを取得します。 |
|
|
<50% |
✅ |
❌ |
❌ |
応答は検索に基づいていますが、検索は貧弱です。 |
|
|
<50% |
✅ |
❌ |
✅ |
関連する応答は、取得されたコンテキストに基づいていますが、検索は期待される応答に関連していない可能性があります。 |
|
|
<50% |
✅ |
✅ |
✅ 又は ❌ |
検索により、LLM が正しく回答するのに十分な情報が見つかります。 |
None |
|
>50% |
❌ |
❌ |
✅ 又は ❌ |
幻覚。 |
|
|
>50% |
❌ |
✅ |
✅ 又は ❌ |
幻覚、正しいが、文脈にない詳細を生成する。 |
|
|
>50% |
✅ |
❌ |
❌ |
検索は良好ですが、LLM は関連する応答を提供しません。 |
|
|
>50% |
✅ |
❌ |
✅ |
検索と適切な応答は良好ですが、正しくありません。 |
|
|
>50% |
✅ |
✅ |
✅ |
問題ありません。 |
None |
|
グラウンドトゥルースが利用できない場合の根本原因分析
チャンクの関連性の精度 |
根拠 |
クエリとの関連性 |
問題の概要 |
根本原因 |
一般評価 |
---|---|---|---|---|---|
<50% |
❌ |
❌ |
検索品質が悪い。 |
|
|
<50% |
❌ |
✅ |
検索品質が悪い。 |
|
|
<50% |
✅ |
❌ |
応答は検索に基づいていますが、検索は貧弱です。 |
|
|
<50% |
✅ |
✅ |
検索されたコンテキストに基づいており、関連性のある応答ですが、検索は不十分です。 |
|
|
>50% |
❌ |
❌ |
幻覚。 |
|
|
>50% |
❌ |
✅ |
幻覚。 |
|
|
>50% |
✅ |
❌ |
検索は良好で根拠はありますが、LLM は関連する応答を提供しません。 |
|
|
>50% |
✅ |
✅ |
良好な検索と適切な応答。 グラウンドトゥルースを収集して、答えが正しいかどうかを把握します。 |
None |
|