ステップ 3.利害関係者のフィードバックから評価セットをキュレーションする
このセクションのサンプル コードについては、 GitHub リポジトリ を参照してください。
予想時間:10〜60分。 時間は、利害関係者から提供された応答の品質によって異なります。 レスポンスが乱雑だったり、無関係なクエリがたくさん含まれている場合は、データのフィルタリングとクリーニングにより多くの時間を費やす必要があります。
概要と期待される結果
このステップは、レビューアプリを使用して利害関係者から提供されたフィードバックを使用して評価セットをブートストラップします。 評価セットは質問だけでブートストラップできるため、関係者がアプリとチャットしただけでフィードバックを提供した場合でも、この手順に従うことができます。
エージェント評価評価セットのスキーマについては、 エージェント評価入力スキーマを参照してください。 このスキーマのフィールドは、このセクションの残りの部分で参照されます。
この手順の最後には、次のものを含む評価セットが作成されます。
親指を立て👍たリクエスト:
request
: ユーザーが入力したとおり。expected_response
: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合、モデルによって生成された応答。
親指を下げ👎たリクエスト:
request
: ユーザーが入力したとおり。expected_response
: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合、応答は null になります。
フィードバックのないリクエスト(サムズアップ👍またはサムズダウン👎なし)
request
: ユーザーが入力したとおり。
すべてのリクエストで、ユーザーが retrieved_context
からチャンクに対して「サムズアップ👍」を選択した場合、そのチャンクの doc_uri
が質問の expected_retrieved_context
に含まれます。
重要
Databricks では、評価セットに少なくとも 30 の質問を含めることをお勧めします。 評価セットを深く掘り下げて、「良い」評価セットとは何かについて詳しく学びましょう。
指示
04_create_evaluation_set ノートブックを開き、[すべて実行] をクリックします。
評価セットを検査して、含まれるデータを理解します。 評価セットに、代表的な質問と挑戦的な質問のセットが含まれていることを検証する必要があります。 必要に応じて評価セットを調整します。
デフォルトでは、評価セットは 00_global_config ノートブックの
EVALUATION_SET_FQN
で構成された Delta テーブルに保存されます。
次のステップ
評価セットが用意できたので、それを使用して POC アプリの品質、コスト、待機時間を評価します。 ステップ 4 を参照してください。POC の品質を評価します。