RAGアプリケーションの評価とモニタリングの概要

評価とモニタリングは、RAGアプリケーションがユースケースによって規定される品質、コスト、およびレイテンシの要件に対して実行されているかどうかを理解するための重要な要素です。 技術的には、評価は開発中に行われ、モニタリングはアプリケーションが本番運用にデプロイされた後に行われますが、基本的なコンポーネントは似ています。

非構造化データに対するRAGは、アプリケーションの品質に影響を与える多くのコンポーネントを含む複雑なシステムです。 1 つの要素を調整すると、他の要素に連鎖的な影響を与える可能性があります。 たとえば、データフォーマットの変更は、取得されたチャンクや、関連する応答を生成するLLMの能力に影響を与える可能性があります。 したがって、アプリケーション全体に加えて、アプリケーションの各コンポーネントを評価し、それらの評価に基づいてアプリケーションを反復的に調整することが重要です。

評価 & モニタリング: Classical ML vs. 生成AI

RAGを含む生成AI アプリケーションの評価とモニタリングは、いくつかの点で従来の機械学習とは異なります。

トピック

クラシックML

生成AI

メトリクス

メトリクスは、コンポーネントの入力と出力 (機能ドリフト、精度、再現率、レイテンシなど) を評価します。 成分が1つしかないため、overall メトリクス == component メトリクスとなります。

コンポーネントメトリクスは、各コンポーネントの入力と出力 (精度 @ K、nDCG、レイテンシ、毒性など) を評価します。 複合メトリクスは、複数のコンポーネントがどのように相互作用するかを評価します:忠実度は、チェーン入力、チェーン出力、および内部レトリーバの出力を必要とするレトリーバーからの知識に対するジェネレーターの順守を測定します。 全体的なメトリクスは、システムの全体的な入力と出力 (回答の正確性やレイテンシーなど) を評価します。

評価

答えは決定論的に「正しい」か「間違っている」かです。 決定論的なメトリクスは機能します。

答えは「正しい」または「間違っている」ですが、•多くの正解があります(非決定論的)。&ブル;いくつかの正しい答えはより正しいです。 必要なもの:&ブル;人間のフィードバックが自信を持つために。 &ブル; LLM-judged メトリクス to scale evaluation.

評価とモニタリングの構成要素

RAGアプリケーションの品質、コスト、およびレイテンシを効果的に評価および監視するには、いくつかのコンポーネントが必要です。

  • 評価セット: RAGアプリケーションを厳密に評価するには、アプリケーションの使用目的を代表する厳選された評価クエリ(および理想的には出力)のセットが必要です。 これらの評価例は、やりがいがあり、多様で、変化する使用法と要件を反映するように更新する必要があります。

  • メトリクス の定義: 測定しないものは管理できません。 RAGの品質を向上させるには、ユースケースにとって品質が何を意味するのかを定義することが不可欠です。 アプリケーションによっては、応答の精度、レイテンシ、コスト、主要な利害関係者からの評価など、重要なメトリクスが含まれる場合があります。 各コンポーネント、コンポーネントが互いにどのように相互作用するか、およびシステム全体を測定するメトリクスが必要になります。

  • LLMの審査員: LLM 応答のオープンエンドの性質を考えると、評価のたびにすべての応答を読み取って出力が正しいかどうかを判断することは現実的ではありません。 出力をレビューするために追加の異なる LLM を使用すると、評価をスケーリングし、人間の評価者が大規模に効果的に評価することは不可能な、何千ものコンテキストのトークンに対する応答の根拠性などの追加のメトリクスをコンピュートするのに役立ちます。

  • 評価ハーネス: 開発中、評価ハーネスを使用すると、評価セット内のすべてのレコードに対してアプリケーションを迅速に実行し、 LLM ジャッジとメトリクス計算を通じて各出力を実行できます。 このステップは内部の開発ループを「ブロック」するため、速度が最も重要であるため、これは特に困難です。 優れた評価ハーネスは、この作業を可能な限り並列化し、多くの場合、より多くの LLM 容量などの追加のインフラストラクチャをスピンアップします。

  • 利害関係者向けの UI: 開発者は、開発しているアプリケーションのコンテンツに関するドメインの専門家ではないかもしれません。 アプリケーションの品質を評価できる人間の専門家からフィードバックを収集するには、彼らがアプリケーションと対話し、詳細なフィードバックを提供できるインターフェイスが必要です。

  • 本番運用 トレースのログ記録: 本番運用に入ると、大幅に多くのリクエスト/レスポンスと、各レスポンスがどのように生成されたかを評価する必要があります。 たとえば、低品質の回答の根本原因が検索ステップによるものなのか、幻覚によるものなのかを知る必要があります。 本番運用のロギングは、入力、出力、およびドキュメント取得などの中間ステップを追跡して、本番運用で発生する問題の継続的なモニタリングと早期検出と診断を可能にする必要があります。

これらのドキュメントでは、 RAG品質の評価で評価について詳しく説明します。

< 前: 推論用のRAGチェーン

次へ:RAGアプリのガバナンスとLLMOps>