ステップ 5.品質問題の根本原因を特定する
このセクションのサンプル コードについては、 GitHub リポジトリ を参照してください。
予想時間:60分。
要件
POC の評価結果は MLflow で入手できます。 ステップ 4.POCの品質を評価すると、結果はMLflowで入手できます。
前の手順のすべての要件。
概要
品質問題の根本原因として最も可能性が高いのは、取得と生成のステップです。 最初に焦点を当てる場所を決定するには、前のステップで実行した Mosaic AI エージェント評価 LLM 判定の出力を使用して、アプリの品質に影響を与える最も頻繁な根本原因を特定します。
評価セットの各行には、次のようにタグが付けられます。
全体的な評価: 合格または不合格。
根本原因:
Improve Retrieval
またはImprove Generation
。根本原因の根拠: 根本原因が選択された理由の簡単な説明。
指示
このアプローチは、評価セットに質問に対するグラウンドトゥルース回答が含まれているかどうかによって異なります。 これらの応答は expected_response
に格納されます。 使用可能な expected_response
がある場合は、 グラウンド トゥルースが使用可能な場合は、根本原因分析の表を使用します。 それ以外の場合は、 グラウンド トゥルースが利用できない場合は、テーブル Root cause analysis を使用します。
B_quality_iteration/01_root_cause_quality_issues ノートブックを開きます。
ユースケースに関連するセルを実行します(例:expected_responseがある場合やない場合など)
出力テーブルを確認して、アプリケーションで最も頻繁に発生する根本原因を特定します
根本原因ごとに、以下のステップに従ってさらにデバッグを行い、潜在的な修正を特定します。
根本原因分析 (グラウンド トゥルースが利用可能な場合)
注:
各質問に対してどのドキュメントを取得する必要があるかについて、人間が ground-truth とラベル付けしている場合は、オプションで retrieval/llm_judged/chunk_relevance/precision/average
を retrieval/ground_truth/document_recall/average
のスコアに置き換えることができます。
チャンクの関連性の精度 |
根拠 |
正確性 |
クエリとの関連性 |
問題の概要 |
根本原因 |
一般評価 |
---|---|---|---|---|---|---|
<50% |
失敗 |
失敗 |
失敗 |
取り出しが悪い。 |
|
失敗 |
<50% |
失敗 |
失敗 |
合格 |
LLM は適切な応答を生成しますが、取得は不十分です。 たとえば、LLM は取得を無視し、トレーニング知識を使用して応答します。 |
|
失敗 |
<50% |
失敗 |
合格 |
合格または不合格 |
検索の品質は劣りますが、LLM は関係なく正しい答えを取得します。 |
|
失敗 |
<50% |
合格 |
失敗 |
失敗 |
応答は検索に基づいていますが、検索は不十分です。 |
|
失敗 |
<50% |
合格 |
失敗 |
合格 |
取得したコンテキストに基づく関連する応答ですが、取得は期待される回答に関連していない可能性があります。 |
|
失敗 |
<50% |
合格 |
合格 |
合格または不合格 |
取得により、LLM が正しく回答するのに十分な情報が見つかります。 |
なし |
合格 |
>50% |
失敗 |
失敗 |
合格または不合格 |
幻覚。 |
|
失敗 |
>50% |
失敗 |
合格 |
合格または不合格 |
幻覚、正しいが、文脈にない詳細を生成する。 |
|
失敗 |
>50% |
合格 |
失敗 |
失敗 |
取得は良好ですが、LLM は適切な応答を提供しません。 |
|
失敗 |
>50% |
合格 |
失敗 |
合格 |
検索が良好で、適切な応答ですが、正しくありません。 |
|
失敗 |
>50% |
合格 |
合格 |
合格 |
問題ありません。 |
なし |
合格 |
グラウンドトゥルースが利用できない場合の根本原因分析
チャンクの関連性の精度 |
根拠 |
クエリとの関連性 |
問題の概要 |
根本原因 |
一般評価 |
---|---|---|---|---|---|
<50% |
失敗 |
失敗 |
検索品質が悪い。 |
|
失敗 |
<50% |
失敗 |
合格 |
検索品質が悪い。 |
|
失敗 |
<50% |
合格 |
失敗 |
応答は検索に基づいていますが、検索は不十分です。 |
|
失敗 |
<50% |
合格 |
合格 |
検索されたコンテキストに基づいており、関連性のある応答ですが、検索が不十分です。 |
|
合格 |
>50% |
失敗 |
失敗 |
幻覚。 |
|
失敗 |
>50% |
失敗 |
合格 |
幻覚。 |
|
失敗 |
>50% |
合格 |
失敗 |
検索が良好で接地されていますが、LLM は適切な応答を提供しません。 |
|
失敗 |
>50% |
合格 |
合格 |
良好な検索と適切な応答。 答えが正しいかどうかを確認するために、グラウンドトゥルースを収集します。 |
なし |
合格 |