ステップ5(生成)。 生成品質をデバッグする方法
このページでは、生成の問題の根本原因を特定する方法について説明します。 このページは、 根本原因分析 によって根本原因が Improve Generation
を示す場合に使用します。
最適な検索であっても、RAG チェーンの LLM コンポーネントが取得したコンテキストを効果的に活用して、正確で一貫性のある関連性の高い応答を生成できない場合、最終的な出力の品質が低下します。 生成品質の問題は、幻覚、不整合、またはユーザーのクエリに簡潔に対処できないなど、さまざまな形で現れます。
指示
生成品質の問題に対処するには、次の手順に従います。
B_quality_iteration/01_root_cause_quality_issues ノートブックを開きます。
クエリを使用して、生成品質の問題があったレコードの MLflow トレースを読み込みます。
レコードごとに、生成された応答を手動で調べ、取得したコンテキストおよびグラウンドトゥルース応答と比較します。
生成品質の低いクエリ間のパターンや一般的な問題を探します。 例えば:
取得されたコンテキストに存在しない情報を生成します。
取得したコンテキストと一致しない情報を生成する (幻覚)。
指定された取得されたコンテキストでユーザーのクエリに直接対処できない。
過度に冗長な応答、理解しにくい応答、または論理的な一貫性に欠ける応答を生成する。
特定された問題に基づいて、潜在的な根本原因と対応する修正を仮定します。 ガイダンスについては、「 生成品質が低い一般的な理由」を参照してください。
潜在的な修正を実装して評価するには、「変更の実装と評価」のステップに従います。 これには、 RAG チェーンの変更 (たとえば、プロンプト テンプレートの調整や別のLLMの試行) やデータパイプラインの変更 (たとえば、より多くのコンテキストを提供するためのチャンク戦略の調整) が含まれる場合があります。
生成品質がまだ満足のいくものでない場合は、目的のパフォーマンスが達成されるまで、次に最も有望な修正についてステップ 4 と 5 を繰り返します。
根本原因分析を再実行して、チェーン全体に対処すべき追加の根本原因があるかどうかを判断します。
発電品質が低下する一般的な理由
次の表に、一般的な生成の問題に対するデバッグ手順と潜在的な修正を示します。 修正はコンポーネント別に分類されます。
このコンポーネントは、変更の実装および評価のステップでどのステップに従う必要があるかを定義します。
重要
Databricks では、プロンプト エンジニアリングを使用してアプリの出力の品質を反復することをお勧めします。 以下のステップのほとんどは prompt エンジニアリングを使用します。
生成の問題 |
消える |
修正可能な方法 |
---|---|---|
生成された情報は、取得されたコンテキスト(幻覚など)には存在しません。 |
|
|
ユーザーの問い合わせに直接対応できない、または過度に一般的な応答を提供しない |
|
|
生成された応答が理解しにくい、または論理的な流れに欠けている |
|
|
生成された回答が目的の形式またはスタイルではない |
|
|
次のステップ
検索品質の問題も特定した場合は、ステップ 5 (検索) に進みます。検索品質をデバッグする方法。
特定された問題がすべて解決されたと思われる場合は、手順 6 に進みます。品質修正を繰り返し実装して評価します。