「品質」の定義:評価セット

この記事では、評価セットと、評価セットがアプリケーションの品質確保にどのように役立つかについて説明します。

評価セットとは

品質を測定するために、Databricks では人間がラベル付けした評価セットを作成することを推奨しています。評価セットは、キュレーションされた代表的なクエリのセットと、グラウンドトゥルースの回答、および(必要に応じて)取得する必要がある正しいサポートドキュメントです。このプロセスでは、評価セットがエンドユーザーの期待と要件を正確に反映するようにするため、人間の入力が重要です。

人間のラベルのキュレーションは、時間のかかるプロセスです。まず、質問のみを含む評価セットを作成し、時間の経過とともにグラウンドトゥルースの回答を追加します。 Mosaic AI Agent Evaluation は、グラウンドトゥルースがなくてもチェーンの品質を評価できますが、グラウンドトゥルースが利用可能な場合は、回答の正確さなどの追加のメトリクスも評価します。

適切な評価セットの要素

適切な評価セットには、次の特性があります。

代表:本番運用でアプリケーションが遭遇するさまざまな要求を正確に反映します。
挑戦： このセットには、モデルの機能を効果的にテストするために、困難で多様なケースを含める必要があります。理想的には、プロンプトの挿入を試みる質問や、LLM から不適切な応答を生成しようとする質問などの敵対的な例が含まれます。
継続的に更新:アプリケーションが本番運用でどのように使用されているか、インデックス付けされたデータの性質の変化、およびアプリケーション要件の変更を反映するために、セットを定期的に更新する必要があります。

Databricks では、評価セットに少なくとも 30 個の質問、理想的には 100 ～ 200 個の質問を含めることを推奨しています。最適な評価セットは、時間の経過とともに増加し、1,000 の質問が含まれます。

トレーニング、テスト、検証セット

過剰適合を避けるために、Databricks では評価セットをトレーニングセット、テストセット、検証セットに分割することを推奨しています。

トレーニングセット:質問の約 70%。すべての実験を評価して、最も可能性の高いものを特定するための初期パスとして使用されます。
テストセット: 質問の~20%。トレーニングセットから最もパフォーマンスの高いエクスペリメントを評価するために使用されます。
検証セット: 質問の~10%。本番運用にエクスペリメントを展開する前の最終検証チェックに使用されます。

Mosaic AI Agent Evaluation は、関係者がアプリケーションの出力に関するフィードバックを提供するための Web ベースのチャットインターフェイスを提供することで、評価セットの作成を支援します。チェーンの出力と利害関係者のフィードバックはDeltaテーブルに保存され、評価セットにまとめられます。サンプルコードを使用した実践的な手順については、このクックブックの「実装」セクションにある「評価セットのキュレーション」を参照してください。