ステップ3. 利害関係者のフィードバックから評価セットをキュレートする
![評価セットが強調表示されたワークフロー](../../_images/workflow-evalset.png)
このセクションのサンプル コードについては、GitHub リポジトリを参照してください。
予想される時間:10〜60分。 時間は、関係者から提供された回答の質によって異なります。 応答が乱雑であったり、無関係なクエリが多数含まれていたりする場合は、データのフィルタリングとクリーニングにより多くの時間を費やす必要があります。
概要と期待される結果
このステップでは、レビュー アプリを使用して関係者が提供したフィードバックを使用して評価セットをブートストラップします。 質問だけで評価セットをブートストラップできるため、関係者がフィードバックを提供するのではなくアプリとチャットしただけの場合でも、この手順に従うことができます。
エージェント評価評価セットのスキーマについては、「 評価セットのスキーマ」を参照してください。 このスキーマのフィールドは、このセクションの残りの部分で参照されます。
このステップの最後には、次の内容を含む評価セットが作成されます。
: 👍
request
: ユーザーが入力したとおり。expected_response
: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合は、モデルによって生成された応答。
: 👎
request
: ユーザーが入力したとおり。expected_response
: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合、応答は null です。
フィードバックのない要求 (no 👍 または 👎 )
request
: ユーザーが入力したとおり。
すべてのリクエストについて、ユーザーが retrieved_context
からチャンクを選択すると👍、そのチャンクの doc_uri
が質問の expected_retrieved_context
に含まれます。
重要
Databricks では、評価セットに開始時に少なくとも 30 個の質問を含めることを推奨しています。 「良い」評価セットとは何かについては、[評価セットの詳細]をお読みください。
指示
04_create_evaluation_set ノートブックを開き、 「すべて実行」をクリックします。
評価セットを調べて、含まれているデータを理解します。 評価セットに、代表的でやりがいのある一連の質問が含まれていることを検証する必要があります。 必要に応じて評価セットを調整します。
デフォルトでは、評価セットは00_global_config ノートブックの
EVALUATION_SET_FQN
で構成された Delta テーブルに保存されます。
次のステップ
評価セットが用意できたので、それを使用して POC アプリの品質、コスト、待機時間を評価します。 ステップ 4 を参照してください。POC の品質を評価します。