ステップ 5 (生成)。 生成品質をデバッグする方法
このページでは、生成の問題の根本原因を特定する方法について説明します。 このページは、 根本原因分析 で根本原因 Improve Generation
が示された場合に使用します。
最適な検索を行っても、RAGチェーンのLLMコンポーネントが取得したコンテキストを効果的に利用して、正確で一貫性のある適切な応答を生成できない場合、最終的な出力品質が低下します。 生成品質の問題が発生する原因としては、幻覚、不整合、またはユーザーのクエリに簡潔に対処できないことなどがあります。
指示
次の手順に従って、生成品質の問題に対処してください。
B_quality_iteration/01_root_cause_quality_issues ノートブックを開きます。
クエリを使用して、生成品質の問題が発生したレコードの MLflow トレースを読み込みます。
レコードごとに、生成された応答を手動で調べ、取得したコンテキストおよびグラウンドトゥルース応答と比較します。
生成品質が低いクエリ間でパターンや一般的な問題を探します。 例えば:
取得したコンテキストに存在しない情報を生成する。
取得したコンテキストと一致しない情報を生成する(幻覚)。
提供された取得コンテキストに基づいてユーザーのクエリに直接対処できなかった。
冗長すぎる、理解しにくい、または論理的な一貫性に欠ける応答を生成する。
特定された問題に基づいて、潜在的な根本原因と対応する修正を仮定します。 ガイダンスについては、「 生成品質が低下する一般的な理由」を参照してください。
「変更の実装と評価」の手順に従って、潜在的な修正プログラムを実装および評価します。これには、RAGチェーンの変更(プロンプトテンプレートの調整や別のLLMの試行など)やデータパイプラインの変更(たとえば、より多くのコンテキストを提供するためのチャンク戦略の調整)が含まれる場合があります。
それでも生成品質が十分でない場合は、目的のパフォーマンスが得られるまで、次に有望な修正のためにステップ 4 と 5 を繰り返します。
根本原因分析を再実行して、チェーン全体に対処すべき追加の根本原因があるかどうかを判断します。
発電品質が悪い一般的な理由
次の表に、デバッグ ステップと、一般的な生成の問題に対する潜在的な修正を示します。 修正プログラムはコンポーネントごとに分類されます。
チェーン設定
チェーンコード
このコンポーネントは、 変更の実装と評価 のステップで従うべきステップを定義します。
重要
Databricks では、プロンプト エンジニアリングを使用してアプリの出力の品質を反復処理することをお勧めします。 次のステップのほとんどはプロンプトエンジニアリングを使用します。
発電の問題 |
デバッグ ステップ |
潜在的な修正 |
---|---|---|
生成された情報は、取得されたコンテキスト (幻覚など) に存在しません。 |
|
|
ユーザーのクエリに直接対処しなかった、または過度に一般的な回答を提供しなかった |
|
|
生成された応答が理解しにくい、または論理的な流れを欠いている |
|
|
生成された回答が目的の形式またはスタイルではありません |
|
|
次のステップ
取り出し品質の問題も特定した場合は、 ステップ 5 (取り出し) に進みます。取得品質をデバッグする方法。
特定された問題をすべて解決したと思われる場合は、 ステップ 6 に進みます。AIエージェントで品質修正を行い、評価します。