評価とモニタリング RAG アプリケーションの紹介

評価とモニタリングは、RAG アプリケーションがユースケースで定められた品質、コスト、レイテンシの要件に従って実行されているかどうかを把握するための重要な要素です。 技術的には、評価は開発中に行われ、モニタリングはアプリケーションが本番運用にデプロイされた後に行われますが、基本的なコンポーネントは似ています。

非構造化データに対するRAGは、アプリケーションの品質に影響を与える多くのコンポーネントを含む複雑なシステムです。 1 つの要素を調整すると、他の要素に連鎖的な効果が及ぶ可能性があります。 たとえば、データ形式の変更は、取得されたチャンクと、関連する応答を生成する LLM の能力に影響を与える可能性があります。 そのため、アプリケーション全体に加えて、アプリケーションの各コンポーネントを評価し、それらの評価に基づいて反復的に改良することが重要です。

評価とモニタリング: 従来のMLと生成AI

RAG を含む生成AIアプリケーションの評価とモニタリングは、従来の機械学習とはいくつかの点で異なります。

クラシックML

生成AI

メトリクス

メトリクスは、特徴ドリフト、精度、再現率、レイテンシなど、コンポーネントの入力と出力を評価します。 コンポーネントは 1 つしかないため、全体のメトリクス == コンポーネントのメトリクスです。

コンポーネント メトリックは、精度 @ K、nDCG、レイテンシ、毒性など、各コンポーネントの入力と出力を評価します。 複合メトリックは、複数のコンポーネントがどのように相互作用するかを評価します。忠実度は、チェーン入力、チェーン出力、および内部リトリーバーの出力を必要とするリトリーバーからの知識に対するジェネレーターの準拠を測定します。 全体メトリックは、回答の正確さや待ち時間など、システムの全体的な入力と出力を評価します。

評価

答えは決定論的に「正しい」か「間違っている」かです。 決定論的なメトリクス作業。

答えは「正しい」または「間違っている」ですが、•正解はたくさんあります(非決定論的)。•いくつかの正しい答えはより正しいです。 必要なもの: •自信を持つための人間のフィードバック。 &ブル; LLM判定による尺度評価のメトリクス。

評価とモニタリングの構成要素

RAG アプリケーションの品質、コスト、レイテンシを効果的に評価およびモニタリングするには、いくつかのコンポーネントが必要です。

  • 評価セット: RAGアプリケーションを厳密に評価するには、アプリケーションの使用目的を表す評価クエリ(および理想的には出力)のキュレーションされたセットが必要です。 これらの評価例は、挑戦的で多様であり、変化する使用法と要件を反映するように更新する必要があります。

  • メトリクスの定義:測定できないものは管理できません。 RAGの品質を向上させるには、ユースケースにおける品質の定義が不可欠です。 アプリケーションに応じて、重要なメトリックには、応答精度、待ち時間、コスト、主要な利害関係者からの評価などが含まれる場合があります。 各コンポーネント、コンポーネント間の相互作用、およびシステム全体を測定するメトリックが必要になります。

  • LLM 審査員: LLM の回答は自由形式であるため、評価するたびにすべての回答を読んで出力が正しいかどうかを判断するのは現実的ではありません。 追加の異なるLLMを使用して出力をレビューすると、評価を拡大し、何千ものコンテキストに対する応答の根拠など、人間の評価者が大規模に効果的に評価することが不可能な追加のメトリックを取得するのに役立ちます。

  • 評価ハーネス:開発中、評価ハーネスを使用すると、評価セット内のすべてのレコードに対してアプリケーションをすばやく実行し、各出力をLLMジャッジとメトリクス計算で実行できます。 このステップは内部の開発ループを「ブロック」するため、特に困難であり、速度が最も重要です。 優れた評価ハーネスは、この作業を可能な限り並列化し、多くの場合、そのために LLM 容量の増加などの追加のインフラストラクチャを起動します。

  • 利害関係者向けの UI: 開発者は、開発中のアプリケーションのコンテンツに関するドメインの専門家ではない可能性があります。 アプリケーションの品質を評価できる人間の専門家からフィードバックを収集するには、専門家がアプリケーションを操作して詳細なフィードバックを提供できるインターフェイスが必要です。

  • 本番運用トレース ログ:本番運用に入ると、大量のリクエスト/応答と各応答がどのように生成されたかを評価する必要があります。 たとえば、質の低い回答の根本的な原因が検索ステップによるものか、幻覚によるものかを把握する必要があります。 本番運用ログでは、継続的なモニタリングと、本番運用で発生する問題の早期検出と診断を可能にするために、入力、出力、およびドキュメントの取得などの中間ステップを追跡する必要があります。

これらのドキュメントでは、 RAG品質の評価で評価について詳しく説明しています。