ステップ 3.利害関係者のフィードバックから評価セットをキュレーションする

評価セットが強調表示されたワークフロー

このセクションのサンプル コードについては、 GitHub リポジトリ を参照してください。

予想時間:10〜60分。 時間は、利害関係者から提供された応答の品質によって異なります。 レスポンスが乱雑だったり、無関係なクエリがたくさん含まれている場合は、データのフィルタリングとクリーニングにより多くの時間を費やす必要があります。

概要と期待される結果

このステップは、レビューアプリを使用して利害関係者から提供されたフィードバックを使用して評価セットをブートストラップします。 評価セットは質問だけでブートストラップできるため、関係者がアプリとチャットしただけでフィードバックを提供した場合でも、この手順に従うことができます。

エージェント評価評価セットのスキーマについては、 評価セットのスキーマを参照してください。 このスキーマのフィールドは、このセクションの残りの部分で参照されます。

この手順の最後には、次のものを含む評価セットが作成されます。

  • リクエスト 👍 :

    • request: ユーザーが入力したとおり。

    • expected_response: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合、モデルによって生成された応答。

  • リクエスト 👎 :

    • request: ユーザーが入力したとおり。

    • expected_response: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合、応答は null になります。

  • フィードバックのないリクエスト (または 👎 なし👍)

    • request: ユーザーが入力したとおり。

すべてのリクエストについて、ユーザーが retrieved_contextからチャンクを選択した場合👍、そのチャンクの doc_uri は質問の expected_retrieved_context に含まれます。

重要

Databricks では、評価セットに少なくとも 30 の質問を含めることをお勧めします。 「評価セットの詳細」を読んで、「良い」評価セットとは何かについて詳しく学びましょう。

要件

  • 利害関係者は POC を使用し、フィードバックを提供しました。

  • 前の手順のすべての要件。

指示

  1. 04_create_evaluation_set ノートブックを開き、[すべて実行] をクリックします。

  2. 評価セットを検査して、含まれるデータを理解します。 評価セットに、代表的な質問と挑戦的な質問のセットが含まれていることを検証する必要があります。 必要に応じて評価セットを調整します。

  3. デフォルトでは、評価セットは 00_global_config ノートブックEVALUATION_SET_FQN で構成された Delta テーブルに保存されます。

次のステップ

評価セットが用意できたので、それを使用して POC アプリの品質、コスト、待機時間を評価します。 ステップ 4 を参照してください。POC の品質を評価します