パフォーマンスを評価する: 重要な指標

この記事では、RAGアプリケーションのパフォーマンスを測定して、検索、応答、およびシステムパフォーマンスの品質を測定する方法について説明します。

検索、応答、およびパフォーマンス

評価セットを使用すると、RAGアプリケーションのパフォーマンスを次のようなさまざまな次元で測定できます。

  • 検索品質:検索メトリクスは、RAG アプリケーションが関連するサポート データをどれだけ正常に取得できるかを評価します。 精度と再現率は 2 つの重要な検索メトリクスです。

  • 応答品質:応答品質メトリックは、RAG アプリケーションがユーザーの要求にどれだけ適切に応答するかを評価します。 応答メトリクスは、たとえば、結果として得られた回答が真実に基づいて正確であるかどうか、取得されたコンテキストを与えられた応答がどの程度根拠のあるものであったか (たとえば、 LLM幻覚を起こしたか)、または応答がどの程度安全であったか (つまり、毒性がなかったか) を測定できます。

  • システム パフォーマンス (コストとレイテンシ):メトリクスは、RAG アプリケーションの全体的なコストとパフォーマンスをキャプチャします。 全体的なレイテンシとトークン消費は、チェーン パフォーマンス メトリックの例です。

応答メトリクスと検索メトリクスの両方を収集することが非常に重要です。 RAGアプリケーションは、正しいコンテキストを取得しているにもかかわらず、応答が不十分になることがあります。また、誤った検索に基づいて適切な応答を提供することもできます。 両方のコンポーネントを測定することによってのみ、アプリケーションの問題を正確に診断し、対処することができます。

パフォーマンスを測定するためのアプローチ

これらのメトリック全体のパフォーマンスを測定するには、主に 2 つのアプローチがあります。

  • 決定論的測定:コストとレイテンシのメトリクスは、アプリケーションの出力に基づいて決定論的に測定できます。 評価セットに質問に対する回答を含むドキュメントのリストが含まれている場合、検索メトリックのサブセットも決定論的にコンピュートできます。

  • LLM 審査員ベースの測定:このアプローチでは、別のLLM が審査員として機能し、RAG アプリケーションの検索と応答の品質を評価します。 回答の正確性などの一部の LLM 判定では、人間がラベル付けしたグラウンド トゥルースとアプリの出力を比較します。 Groundedness などの他の LLM 審査員は、アプリの出力を評価するために人間がラベル付けしたグラウンド トゥルースを必要としません。

重要

LLM ジャッジを効果的にするには、ユースケースを理解できるように調整する必要があります。 そのためには、ジャッジがうまく機能している部分とうまく機能していない部分を理解し、失敗したケースのためにジャッジをチューニングして改善する必要があります。

Mosaic AI Agent Evaluation は、このページで説明されている各メトリックに対して、ホストされたLLM審査員モデルを使用したすぐに使用できる実装を提供します。 エージェント評価のドキュメントでは、これらのメトリックとジャッジがどのように実装されるかについて詳しく説明し、ジャッジをデータに合わせて調整して精度を高める機能を提供します。

メトリクスの概要

以下は、RAG アプリケーションの品質、コスト、レイテンシを測定するためにDatabricksが推奨するメトリックの概要です。 これらのメトリックは、 Mosaic AI Agent Evaluation に実装されています。

次元

メトリクス名

質問

測定基準

グラウンドトゥルースが必要ですか?

検索

chunk_relevance/精度

取得されたチャンクの何%が要求に関連していますか?

LLM審査員

いいえ

検索

document_recall

グラウンドトゥルース文書の何%が取得されたチャンクで表されますか?

確定的

はい

レスポンス

正確性

全体として、エージェントは正しい応答を生成したか

LLM審査員

はい

レスポンス

relevance_to_query

応答は要求に関連していますか?

LLM審査員

いいえ

レスポンス

根拠

その反応は困惑なのか、それとも文脈に根ざしたものか

LLM審査員

いいえ

レスポンス

安全

応答に有害なコンテンツが含まれていますか?

LLM審査員

いいえ

コスト

total_token_count、total_input_token_count、total_output_token_count

LLM世代のトークンの総数はいくつか

確定的

いいえ

レイテンシー

latency_seconds

アプリの実行の待機時間はどれくらいですか?

確定的

いいえ

検索メトリクスの仕組み

検索メトリクスは、リトリーバーが関連性の高い結果を提供しているかどうかを把握するのに役立ちます。 検索メトリクスは精度と再現率に基づいています。

メトリクス名

回答された質問

詳細

精度

取得されたチャンクの何%が要求に関連していますか?

精度は、ユーザーの要求に実際に関連する取得されたドキュメントの割合です。 LLM ジャッジを使用して、取得された各チャンクとユーザーの要求の関連性を評価できます。

再現率

グラウンドトゥルース文書の何%が取得されたチャンクで表されますか?

再現率は、取得したチャンクで表されるグラウンドトゥルースドキュメントの割合です。 これは、結果の完全性の尺度です。

精度と再現率

以下は、 優れたウィキペディアの記事から引用した精度と再現率に関する簡単な入門書です。

精度計算式

精度は、「取得したチャンクのうち、これらの項目の何%が実際にユーザーのクエリに関連しているか」を測定します。 計算精度は、関連するすべての項目を知る必要はありません。

精度を計算するための式。

リコール式

再現率は、「ユーザーのクエリに関連していることがわかっているすべてのドキュメントのうち、何%からチャンクを取得したか」を測定します。 再現率を計算するには、グラウンドトゥルースに すべての 関連項目が含まれている必要があります。 アイテムは、ドキュメントまたはドキュメントのチャンクのいずれかです。

再現率の計算式。

次の例では、取得した 3 つの結果のうち 2 つがユーザーのクエリに関連していたため、精度は 0.66 (2/3) でした。 検索されたドキュメントには、合計 4 つの関連ドキュメントのうち 2 つが含まれていたため、リコールは 0.5 (2/4) でした。

精度と再現率の測定を示す図。