管理された評価データセット — SME(Subject Matter Expert)ユーザーガイド
プレビュー
この機能は プライベート プレビュー段階です。 試してみるには、Databricks の担当者にお問い合わせください。
このページでは、対象分野の専門家 (SME) が管理評価 UI を使用する方法について説明します。 管理評価 UI は、SME が次の操作を行えるように設計されています。
- AIエージェントの機能のさまざまな側面をテストする一連のチャットを確認します。
- AI がこれらの質問に対する AI エージェントの回答を評価するのに役立つ情報を提供します。
エージェント評価Mosaic AIとそれが提供するAIジャッジの詳細については、「エージェント評価Mosaic AI (MLflow 2)」および「エージェント評価による品質、コスト、および遅延の評価方法 (MLflow 2)」を参照してください。
チャットを確認する
最初のステップは、AIエージェントのテストに使用される一連のチャットを確認することです。 これらのチャットは、 評価セットの基礎を形成します。 チャットは、AIエージェントのテストのために開発者によって提供されます。
アプリへのリンクをクリックすると、次のような画面が表示されます。

レビューの全体的な進行状況を確認できます。 進行状況バーには、レビューしたチャットの数と、セット内のチャットの合計数が表示されます。
-
[レビューを開始 ] をクリックします。
-
新しいページが開き、左側にチャットインターフェースが表示され、右側に確認できる質問のリストが表示されます。

-
チャット要求がドキュメントから合成された場合は、ソース ドキュメント カードをクリックしてソース ドキュメントの内容を表示できます。

-
画面の右側にあるすべての質問に答えます。 詳細については、「 チャットを確認する」を参照してください。 行った変更は自動的に保存されます。
-
このチャットのレビューが完了したら、次の操作を行います。
- 次のチャットがある場合は、自動的に次のチャットに移動します。
- ホームページに戻るには、画面の左上にある
をクリックします。
- 前のチャットまたは次のチャットに移動するには、ページの右上にある [前へ ]または [次のチャット ]をクリックします。
チャットを確認する
これは良い質問ですか?
チャットをレビューするとき、最初のステップは、質問がAIエージェントの能力の適切なテストであるかどうかを判断することです。

質問が適切なテストではないと思われる場合は、[ いいえ ] をクリックして拒否し、残りのレビュー手順をスキップします。
予想される事実を確認する
このステップでは、 AI エージェントが質問に答えるために使用する必要がある予想される事実のリストを確認および編集します。

- 既存の事実がある場合は、それを確認します。 必要に応じて、テキストを直接編集できます。 ファクトを削除するには、[ゴミ箱アイコンのスクリーンキャップを追加]をクリックします。
- 新しいファクトを追加するには、[ ファクトの追加 ] をクリックします。予期される事実を提供する方法に関する重要なガイドラインについては、
expected_factsガイドラインを参照してください。 - レビューが完了したら、[ 問題ない] をクリックします。