RAGアプリケーションの評価とモニタリングの概要

評価とモニタリングは、RAG アプリケーションがユースケースによって決定される品質、コスト、およびレイテンシーの要件を満たしているかを理解するために不可欠なコンポーネントです。技術的には、評価は開発中に行われ、モニタリングはアプリケーションが本番運用にデプロイされた後に行われますが、基本的なコンポーネントは類似しています。

非構造化データにおけるRAGは、アプリケーションの品質に影響を与える多くのコンポーネントを持つ複雑なシステムです。いずれか1つの要素を調整すると、他の要素に連鎖的な影響を及ぼす可能性があります。例えば、データフォーマットの変更は、取得されるチャンクやLLMが関連性の高い応答を生成する能力に影響を与える可能性があります。したがって、それらの評価に基づいて反復的に改善するためには、アプリケーション全体に加えて、各コンポーネントを評価することが重要です。

評価 & モニタリング: 従来のML vs. 生成AI

RAGを含む生成AIアプリケーションの評価とモニタリングは、従来の機械学習とはいくつかの点で異なります。

トピック	従来のML	生成AI
メトリクス	メトリクスは、コンポーネントの入力と出力 (機能ドリフト、精度、再現率、レイテンシなど) を評価します。成分が1つしかないため、全体的なメトリクス == コンポーネントのメトリクスとなります。	コンポーネントのメトリクスは、例えばprecision@K、nDCG、レイテンシー、毒性など、各コンポーネントの入力と出力を評価します。複合メトリクスは、複数のコンポーネントがどのように相互作用するかを評価します：忠実度とは、チェーン入力、チェーン出力、内部リトリーバーの出力を必要とするリトリーバーからの知識に対するジェネレーターの遵守度を測定するものです。全体的なメトリクスは、システムの全体的な入力と出力、たとえば回答の正確性やレイテンシなどを評価します。
評価	答えは決定論的に「正しい」か「間違っている」です。決定論的なメトリクスが機能します。	答えは「正しい」か「間違っている」かですが、 •多くの正しい答えがあります(非決定論的)。•いくつかの正しい答えはより正しいです。あなたが必要です: •自信を持つための人間のフィードバック。 • 評価をスケールするためのLLMジャッジメトリクス。

評価とモニタリングのコンポーネント。

RAGアプリケーションの品質、コスト、レイテンシーを効果的に評価およびモニタリングするには、いくつかのコンポーネントが必要です。

評価セット： RAGアプリケーションを厳密に評価するには、アプリケーションの意図された使用方法を代表する、キュレーションされた評価クエリ（理想的には出力も）のセットが必要です。これらの評価例は、やりがいがあり、多様で、変化する使用状況と要件を反映するように更新される必要があります。
**メトリクスの定義:** 測定しないものは管理できません。RAGの品質を向上させるには、ユースケースにとっての品質の意味を定義することが不可欠です。アプリケーションによっては、重要なメトリクスには、応答の精度、レイテンシ、コスト、あるいは主要な利害関係者からの評価が含まれる場合があります。各コンポーネント、コンポーネントが互いにどのように相互作用するか、およびシステム全体を測定するメトリクスが必要です。
LLMジャッジ: LLM 応答のオープンエンドの性質を考えると、評価のたびにすべての応答を読み取って出力が正しいかどうかを判断することは現実的ではありません。出力をレビューするために追加の異なる LLM を使用すると、評価をスケーリングし、人間の評価者が大規模に効果的に評価することは不可能な、何千ものコンテキストのトークンに対する応答の根拠性などの追加のメトリクスをコンピュートするのに役立ちます。
評価ハーネス： 開発中に評価ハーネスを使用すると、評価セット内のすべてのレコードに対してアプリケーションを迅速に実行し、その後、各出力をLLMジャッジとメトリクス計算を通して実行することができます。このステップが内部開発ループを「ブロック」するため、これは特に困難であり、そのため速度は最も重要です。優れた評価ハーネスは、この作業を可能な限り並列化し、多くの場合、LLM容量の増加などの追加インフラストラクチャを立ち上げてこれを行います。
ステークホルダー向け UI: 開発者として、開発中のアプリケーションの内容に関するドメインエキスパートではない場合があります。アプリケーションの品質を評価できる人間の専門家からフィードバックを収集するには、アプリケーションと対話して詳細なフィードバックを提供できるインターフェースが必要です。
本番運用トレースのログ記録: 本番運用に入ると、よりはるかに多くのリクエスト/レスポンス、および各レスポンスがどのように生成されたかを評価する必要があります。たとえば、低品質な回答の根本原因が取得ステップに起因するものか、それとも幻覚に起因するものかを知る必要があります。本番運用ログは、継続的なモニタリングと、本番運用で発生する問題の早期検出および診断を可能にするために、入力、出力、ドキュメント取得などの中間ステップを追跡する必要があります。

これらのドキュメントでは、「RAG品質の評価」で評価についてさらに詳しく説明しています。

評価 & モニタリング: 従来のML vs. 生成AI​

評価とモニタリングのコンポーネント。​

評価 & モニタリング: 従来のML vs. 生成AI

評価とモニタリングのコンポーネント。