パフォーマンスの評価: メトリクス that important

この記事では、RAGアプリケーションのパフォーマンスの測定について、取得、応答、およびシステムパフォーマンスの品質について説明します。

取得、応答、およびパフォーマンス

評価セットを使用すると、次のようなさまざまな次元でRAGアプリケーションのパフォーマンスを測定できます。

  • 検索品質: Retrieval メトリクスは、RAGアプリケーションが関連するサポートデータをどの程度正常に取得しているかを評価します。 精度と再現率は、2 つの主要な検索メトリクスです。

  • 応答品質: 応答品質メトリクスは、RAGアプリケーションがユーザーのリクエストにどの程度適切に応答しているかを評価します。 レスポンスメトリクスは、例えば、結果として得られる回答がグラウンドトゥルースに従って正確であるかどうか、取得したコンテキストに対してレスポンスがどの程度根拠のあるものであったか(例えば、LLMは幻覚を見たか)、またはレスポンスがどれほど安全であったか(つまり、毒性がなかったか)を測定できます。

  • システムパフォーマンス(コストとレイテンシ): メトリクスは、RAGアプリケーションの全体的なコストとパフォーマンスをキャプチャします。 全体的なレイテンシとトークンの消費量は、チェーンのパフォーマンスメトリクスの例です。

レスポンスと取得の両方のメトリクスを収集することは非常に重要です。 RAGアプリケーションは、正しいコンテキストを取得しているにもかかわらず、応答が不十分な場合があります。また、誤った検索に基づいて適切な応答を提供することもできます。 両方のコンポーネントを測定することによってのみ、アプリケーションの問題を正確に診断し、対処することができます。

パフォーマンス測定のアプローチ

これらのメトリクス全体のパフォーマンスを測定するには、次の 2 つの主要なアプローチがあります。

  • 決定論的測定: Cost and latency メトリクスは、アプリケーションの出力に基づいて決定論的にコンピュートできます。 評価セットに、質問に対する回答を含むドキュメントのリストが含まれている場合、retrieval メトリクスのサブセットも決定論的にコンピュートできます。

  • LLMジャッジベースの測定: このアプローチでは、別の LLMがジャッジとして機能し 、RAGアプリケーションの取得とレスポンスの品質を評価します。 回答の正しさなど、一部のLLMジャッジは、人間がラベル付けしたグラウンドトゥルースとアプリの出力を比較します。 グラウンディングネスなどの他のLLMジャッジは、アプリの出力を評価するために人間がラベル付けしたグラウンドトゥルースを必要としません。

重要

LLMジャッジが効果的であるためには、ユースケースを理解するように調整する必要があります。 そのためには、裁判官がどこでうまく機能し、どこでうまく機能しないかを理解するために細心の注意を払う必要があります。そして、失敗の場合には、裁判官を調整して改善する必要があります。

Mosaic AI Agent Evaluation は、このページで説明する各メトリクスに対して、ホストされた LLM ジャッジモデルを使用して、すぐに使用できる実装を提供します。 Agent Evaluation のドキュメントでは、これらのメトリクスとジャッジの実装方法の詳細について説明し、ジャッジをデータに合わせて調整して精度を向上させる機能を提供します

メトリクスの概要

以下は、DatabricksがRAGアプリケーションの品質、コスト、レイテンシを測定するために推奨するメトリクスの概要です。 これらのメトリクスは、Mosaic AI エージェント評価に実装されます。

次元

メトリクス名

質問

測定者

グラウンドトゥルースが必要ですか?

検索

chunk_relevance/精度

取得したチャンクの何%がリクエストに関連していますか?

LLM審査員

いいえ

検索

document_recall

取得したチャンクには、グラウンドトゥルース文書の何パーセントが表されていますか?

確定的

はい

レスポンス

正確性

全体として、エージェントは正しい応答を生成したか

LLM審査員

はい

レスポンス

relevance_to_query

応答は要求に関連していますか?

LLM審査員

いいえ

レスポンス

根拠

その反応は困惑なのか、それとも文脈に根ざしたものか

LLM審査員

いいえ

レスポンス

安全

応答に有害なコンテンツが含まれていますか?

LLM審査員

いいえ

コスト

total_token_count、total_input_token_count、total_output_token_count

LLM世代のトークンの総数はいくつか

確定的

いいえ

レイテンシー

latency_seconds

アプリの実行の遅延はどれくらいですか?

確定的

いいえ

retrieval メトリクスの仕組み

取得メトリクスは、レトリーバーが適切な結果を提供しているかどうかを理解するのに役立ちます。 Retrieval メトリクスは、精度と再現率に基づいています。

メトリクス名

質問回答

詳細

精度

取得したチャンクの何%がリクエストに関連していますか?

精度は、ユーザーの要求に実際に関連する取得されたドキュメントの割合です。 LLM ジャッジを使用して、取得した各チャンクとユーザーの要求との関連性を評価できます。

再現率

取得したチャンクには、グラウンドトゥルース文書の何パーセントが表されていますか?

リコールは、取得したチャンクで表されるグラウンドトゥルースドキュメントの割合です。 これは、結果の完全性の尺度です。

精度と再現率

以下は、 優れたウィキペディアの記事から適応された精度と想起に関する簡単な入門書です。

精密式

精度は、「取得したチャンクのうち、これらのアイテムの何パーセントが実際にユーザーのクエリに関連しているか」を測定します。 精度を計算するために、関連するすべての項目を知る必要はありません

精度の計算式。

リコール式

リコールは、「ユーザーのクエリに関連することがわかっているすべてのドキュメントのうち、チャンクを何%取得しましたか?」を測定します。 リコールの計算には、 すべての 関連アイテムが含まれているグラウンドトゥルースが必要です。 アイテムは、ドキュメントまたはドキュメントのチャンクのいずれかです。

リコールの計算式。

次の例では、取得した 3 つの結果のうち 2 つがユーザーのクエリに関連していたため、精度は 0.66 (2/3) でした。 回収された文書には、合計4つの関連文書のうち2つが含まれていたため、リコールは0.5(2/4)でした。

精度と再現率の測定を示す図。