パフォーマンスを評価する: 重要な指標
この記事では、RAGアプリケーションのパフォーマンスを測定して、検索、応答、およびシステムパフォーマンスの品質を測定する方法について説明します。
検索、応答、およびパフォーマンス
評価セットを使用すると、RAGアプリケーションのパフォーマンスを次のようなさまざまな次元で測定できます。
検索品質:検索メトリクスは、RAG アプリケーションが関連するサポート データをどれだけ正常に取得できるかを評価します。 精度と再現率は 2 つの重要な検索メトリクスです。
応答品質:応答品質メトリックは、RAG アプリケーションがユーザーの要求にどれだけ適切に応答するかを評価します。 応答メトリクスは、たとえば、結果として得られた回答が真実に基づいて正確であるかどうか、取得されたコンテキストを与えられた応答がどの程度根拠のあるものであったか (たとえば、 LLM幻覚を起こしたか)、または応答がどの程度安全であったか (つまり、毒性がなかったか) を測定できます。
システム パフォーマンス (コストとレイテンシ):メトリクスは、RAG アプリケーションの全体的なコストとパフォーマンスをキャプチャします。 全体的なレイテンシとトークン消費は、チェーン パフォーマンス メトリックの例です。
応答メトリクスと検索メトリクスの両方を収集することが非常に重要です。 RAGアプリケーションは、正しいコンテキストを取得しているにもかかわらず、応答が不十分になることがあります。また、誤った検索に基づいて適切な応答を提供することもできます。 両方のコンポーネントを測定することによってのみ、アプリケーションの問題を正確に診断し、対処することができます。
パフォーマンスを測定するためのアプローチ
これらのメトリック全体のパフォーマンスを測定するには、主に 2 つのアプローチがあります。
決定論的測定:コストとレイテンシのメトリクスは、アプリケーションの出力に基づいて決定論的に測定できます。 評価セットに質問に対する回答を含むドキュメントのリストが含まれている場合、検索メトリックのサブセットも決定論的にコンピュートできます。
LLM 審査員ベースの測定:このアプローチでは、別のLLM が審査員として機能し、RAG アプリケーションの検索と応答の品質を評価します。 回答の正確性などの一部の LLM 判定では、人間がラベル付けしたグラウンド トゥルースとアプリの出力を比較します。 Groundedness などの他の LLM 審査員は、アプリの出力を評価するために人間がラベル付けしたグラウンド トゥルースを必要としません。
重要
LLM ジャッジを効果的にするには、ユースケースを理解できるように調整する必要があります。 そのためには、ジャッジがうまく機能している部分とうまく機能していない部分を理解し、失敗したケースのためにジャッジをチューニングして改善する必要があります。
Mosaic AI Agent Evaluation は、このページで説明されている各メトリックに対して、ホストされたLLM審査員モデルを使用したすぐに使用できる実装を提供します。 エージェント評価のドキュメントでは、これらのメトリックとジャッジがどのように実装されるかについて詳しく説明し、ジャッジをデータに合わせて調整して精度を高める機能を提供します。
メトリクスの概要
以下は、RAG アプリケーションの品質、コスト、レイテンシを測定するためにDatabricksが推奨するメトリックの概要です。 これらのメトリックは、 Mosaic AI Agent Evaluation に実装されています。
次元 |
メトリクス名 |
質問 |
測定基準 |
グラウンドトゥルースが必要ですか? |
---|---|---|---|---|
検索 |
chunk_relevance/精度 |
LLM審査員 |
いいえ |
|
検索 |
document_recall |
グラウンドトゥルース文書の何%が取得されたチャンクで表されますか? |
確定的 |
はい |
レスポンス |
正確性 |
LLM審査員 |
はい |
|
レスポンス |
relevance_to_query |
LLM審査員 |
いいえ |
|
レスポンス |
根拠 |
LLM審査員 |
いいえ |
|
レスポンス |
安全 |
LLM審査員 |
いいえ |
|
コスト |
total_token_count、total_input_token_count、total_output_token_count |
確定的 |
いいえ |
|
レイテンシー |
latency_seconds |
確定的 |
いいえ |
検索メトリクスの仕組み
検索メトリクスは、リトリーバーが関連性の高い結果を提供しているかどうかを把握するのに役立ちます。 検索メトリクスは精度と再現率に基づいています。
メトリクス名 |
回答された質問 |
詳細 |
---|---|---|
精度 |
取得されたチャンクの何%が要求に関連していますか? |
精度は、ユーザーの要求に実際に関連する取得されたドキュメントの割合です。 LLM ジャッジを使用して、取得された各チャンクとユーザーの要求の関連性を評価できます。 |
再現率 |
グラウンドトゥルース文書の何%が取得されたチャンクで表されますか? |
再現率は、取得したチャンクで表されるグラウンドトゥルースドキュメントの割合です。 これは、結果の完全性の尺度です。 |
精度と再現率
以下は、 優れたウィキペディアの記事から引用した精度と再現率に関する簡単な入門書です。