管理評価 — SME(Subject Matter Expert)ユーザーガイド
プレビュー
この機能はパブリックプレビュー段階です。
このページでは、対象分野の専門家 (SME) が管理評価 UI を使用する方法について説明します。 管理評価 UI は、SME が次の操作を行えるように設計されています。
AIエージェントの機能のさまざまな側面をテストする一連の入力質問を作成します。
AI がこれらの質問に対する AI エージェントの回答を評価するのに役立つ情報を提供します。
Mosaic AI Agent Evaluation とそれが提供する AI ジャッジの詳細については、「Mosaic AI Agent Evaluation とは」および「Agent メトリクス & LLM ジャッジを使用してアプリのパフォーマンスを評価する」を参照してください。
問題の作成
最初のステップは、AIエージェントのテストに使用される一連の質問を作成することです。 これらの質問は、 評価セットの基礎を形成します。 質問は保存され、開発者はAIエージェントの継続的なテストに使用できます。
アプリへのリンクをクリックすると、次のような画面が表示されます。
この画面から、質問を直接入力することも、アプリに質問を自動的に生成させることもできます。
質問を直接入力する
ボックスに質問を入力し、 Enterキーを押します。
新しいページが開き、質問、AI エージェントの応答、および応答や追加情報に関するフィードバックを提供するためのフィールドが表示されます。 画面の右側に表示されるフィールドは、開発者が指定したモードによって異なります。 使用可能なモードの詳細については、「 AI 応答の評価」を参照してください。
スクリーンショットは、参照回答モードの応答ページの例を示しています。
画面の右側にフィードバックを入力します。 詳細については、「 AI 応答の評価」を参照してください。
完了したら、次のいずれかの操作を行います。
ホームページに戻るには、[ ] をクリックします。
次の質問がある場合は、その質問に進むには、ページ上部の右矢印をクリックします。
質問の自動生成
アプリのホームページで、青色の [質問の生成 ] ボタンをクリックします。 アプリは、 AI エージェントのトレーニングに使用した情報からランダムにページを選択します。 新しいページが開き、選択したページと、そのページに表示される情報に基づいて提案されたいくつかの質問が表示されます。
提案された質問を保存するには、質問の右側にある 「保存 」をクリックします。 また、提案された質問を直接編集したり、[ 質問を追加 ] をクリックして独自の質問を追加したりすることもできます。
完了したら、[ 次のドキュメント ] をクリックしてアプリに別のページを選択し、さらに質問を生成するか、[ ] をクリックしてホーム ページに戻ります。
AIの応答を評価する
一連の質問を作成したら、次のステップは、それらの質問に対するAIエージェントの回答を評価することです。 応答を評価するプロセスは反復的なものです。 どのステップに従うかは、開発者が指定したモードによって異なります。 使用可能なモードは次のとおりです。
フィードバックモード。 AIからの各応答を「サムズアップ」または「サムズダウン」としてマークします。
参照応答モード。 各質問に対する参照回答を提供します。 AIの審査員は、AIが生成した回答を評価するための基準として、この回答を使用します。
採点ノートモード。 正しい答えを特定する一連のガイドラインを提供します。 AIジャッジは、生成されたレスポンスをチェックして、指定したガイドラインを満たしていることを確認します。
採点ノートモード
採点ノートモードでは、AIエージェントの応答を確認した後、AIジャッジがエージェントのパフォーマンスを評価するために使用する情報を提供します。
画面の右側にある [採点メモ ]ボックスに入力を入力します。 ジャッジに情報を提供する方法に関する重要なガイドラインについては、 採点ノートの提供に関するヒントを参照してください。
「AIジャッジに聞く」をクリックするか、Enterキーを押します。
審査員は、入力した情報を使用して回答を評価します。 応答に 「正解 」または 「不正解 」のラベルを付け、その根拠を表示します。 「不正」というラベルの付いた応答でも、開発者に重要な情報が提供されます。あなたとAIジャッジが回答が正しくないことに同意した場合、あなたの唯一のタスクは、可能な限り最高の採点ノートを入力することです。 AIジャッジが回答を正解または不正解とマークし、あなたが同意しない場合は、 AIジャッジの評価に同意しない場合を参照してください。
採点ノートを提供するためのヒント
採点ノートモードでは、審査員が AI エージェントの回答を評価するために使用するガイドラインを書くことがあなたのタスクです。 これらのメモは、直接的で明確な言語で書かれるべきです。
応答が正しいために含める 必要がある ファクトを指定するには、次のように "must" を使用します。
「答えは Unity Catalog に言及する必要があります。」
事実を正解に含めるべきではないことを示すには、次のように「してはならない」を使用します。
「答えは Unity Catalog に言及してはなりません。」
事実は正しいが、回答が正しいと見なされるために必須ではないことを示すには、次のように「オプション」を使用します。
「答えはオプションで Unity Catalog に言及できます。」
参照応答モード
リファレンスアンサーモードでは、AIエージェントのレスポンスを確認した後、AIジャッジがエージェントのパフォーマンスを評価するために使用する情報を提供します。
画面の右側にある[ 参照解 答]または [採点ノート ]ボックスに入力内容を入力します。 ジャッジに情報を提供する方法に関する重要なガイドラインについては、 参照回答を提供するためのヒントを参照してください。
「AIジャッジに聞く」をクリックするか、Enterキーを押します。
審査員は、入力した情報を使用して回答を評価します。 応答に 「正解 」または 「不正解 」のラベルを付け、その根拠を表示します。 「不正」というラベルの付いた応答でも、開発者に重要な情報が提供されます。あなたとAIジャッジが回答が間違っていることに同意した場合、あなたの唯一のタスクは、可能な限り最良の参照回答を入力することです。 AIジャッジが回答を正解または不正解とマークし、あなたが同意しない場合は、 AIジャッジの評価に同意しない場合を参照してください。