管理評価 — SME(Subject Matter Expert)ユーザーガイド

プレビュー

この機能はパブリックプレビュー段階です。

このページでは、対象分野の専門家 (SME) が管理評価 UI を使用する方法について説明します。 管理評価 UI は、SME が次の操作を行えるように設計されています。

  • AIエージェントの機能のさまざまな側面をテストする一連の入力質問を作成します。

  • AI がこれらの質問に対する AI エージェントの回答を評価するのに役立つ情報を提供します。

Mosaic AI Agent Evaluation とそれが提供する AI ジャッジの詳細については、「Mosaic AI Agent Evaluation とは」および「Agent メトリクス & LLM ジャッジを使用してアプリのパフォーマンスを評価する」を参照してください。

問題の作成

最初のステップは、AIエージェントのテストに使用される一連の質問を作成することです。 これらの質問は、 評価セットの基礎を形成します。 質問は保存され、開発者はAIエージェントの継続的なテストに使用できます。

アプリへのリンクをクリックすると、次のような画面が表示されます。

質問を入力するフィールドがある画面を開く

この画面から、質問を直接入力することも、アプリに質問を自動的に生成させることもできます。

質問を直接入力する

  1. ボックスに質問を入力し、 Enterキーを押します。

    ボックス内の質問
  2. 新しいページが開き、質問、AI エージェントの応答、および応答や追加情報に関するフィードバックを提供するためのフィールドが表示されます。 画面の右側に表示されるフィールドは、開発者が指定したモードによって異なります。 使用可能なモードの詳細については、「 AI 応答の評価」を参照してください。

    スクリーンショットは、参照回答モードの応答ページの例を示しています。

    フィードバック用のフィールドを備えた質問に対するAIアプリの回答
  3. 画面の右側にフィードバックを入力します。 詳細については、「 AI 応答の評価」を参照してください。

  4. 完了したら、次のいずれかの操作を行います。

    • ホームページに戻るには、[ ホームボタン] をクリックします。

    • 次の質問がある場合は、その質問に進むには、ページ上部の右矢印をクリックします。

      評価ページの矢印

質問の自動生成

  1. アプリのホームページで、青色の [質問の生成 ] ボタンをクリックします。 アプリは、 AI エージェントのトレーニングに使用した情報からランダムにページを選択します。 新しいページが開き、選択したページと、そのページに表示される情報に基づいて提案されたいくつかの質問が表示されます。

    自動生成された質問のスクリーンショット
  2. 提案された質問を保存するには、質問の右側にある 「保存 」をクリックします。 また、提案された質問を直接編集したり、[ 質問を追加 ] をクリックして独自の質問を追加したりすることもできます。

  3. 完了したら、[ 次のドキュメント ] をクリックしてアプリに別のページを選択し、さらに質問を生成するか、[ ホームボタン ] をクリックしてホーム ページに戻ります。

タグに関する質問

タグを使用して質問を整理できます。

  1. アプリのホームページで、[ タグ ] タブをクリックします。

  2. [ プラス記号 ] をクリックして、新しいタグを作成します。

  3. ダイアログで、タグの名前を入力し、[ 作成] をクリックします。 新しいタグがリストに表示されます。

  4. 既存のタグの名前を変更したり、既存のタグを削除したりするには、タグの右側にあるケバブメニューをクリックします。

    名前の変更または削除の選択肢があるメニュー
  5. タグを適用または削除するには、個々の質問ページに移動して [ タグを追加] をクリックします。 表示されるドロップダウンで、タグの名前をクリックしてステータスを切り替えます。

    タグのドロップダウンリスト

AIの応答を評価する

一連の質問を作成したら、次のステップは、それらの質問に対するAIエージェントの回答を評価することです。 応答を評価するプロセスは反復的なものです。 どのステップに従うかは、開発者が指定したモードによって異なります。 使用可能なモードは次のとおりです。

  • フィードバックモード。 AIからの各応答を「サムズアップ」または「サムズダウン」としてマークします。

  • 参照応答モード。 各質問に対する参照回答を提供します。 AIの審査員は、AIが生成した回答を評価するための基準として、この回答を使用します。

  • 採点ノートモード。 正しい答えを特定する一連のガイドラインを提供します。 AIジャッジは、生成されたレスポンスをチェックして、指定したガイドラインを満たしていることを確認します。

フィードバックモード

フィードバックモードでは、AIエージェントの応答が正しいかどうかを示すために、YesまたはNoのいずれかに応答することがタスクです。追加の操作はできません。

フィードバック回答モードUI

採点ノートモード

採点ノートモードでは、AIエージェントの応答を確認した後、AIジャッジがエージェントのパフォーマンスを評価するために使用する情報を提供します。

  1. 画面の右側にある [採点メモ ]ボックスに入力を入力します。 ジャッジに情報を提供する方法に関する重要なガイドラインについては、 採点ノートの提供に関するヒントを参照してください。

  2. 「AIジャッジに聞く」をクリックするか、Enterキーを押します。

審査員は、入力した情報を使用して回答を評価します。 応答に 「正解 」または 「不正解 」のラベルを付け、その根拠を表示します。 「不正」というラベルの付いた応答でも、開発者に重要な情報が提供されます。あなたとAIジャッジが回答が正しくないことに同意した場合、あなたの唯一のタスクは、可能な限り最高の採点ノートを入力することです。 AIジャッジが回答を正解または不正解とマークし、あなたが同意しない場合は、 AIジャッジの評価に同意しない場合を参照してください。

審査員の理論的根拠 - 採点ノート

採点ノートを提供するためのヒント

採点ノートモードでは、審査員が AI エージェントの回答を評価するために使用するガイドラインを書くことがあなたのタスクです。 これらのメモは、直接的で明確な言語で書かれるべきです。

応答が正しいために含める 必要がある ファクトを指定するには、次のように "must" を使用します。

  • 「答えは Unity Catalog に言及する必要があります。」

事実を正解に含めるべきではないことを示すには、次のように「してはならない」を使用します。

  • 「答えは Unity Catalog に言及してはなりません。」

事実は正しいが、回答が正しいと見なされるために必須ではないことを示すには、次のように「オプション」を使用します。

  • 「答えはオプションで Unity Catalog に言及できます。」

参照応答モード

リファレンスアンサーモードでは、AIエージェントのレスポンスを確認した後、AIジャッジがエージェントのパフォーマンスを評価するために使用する情報を提供します。

  1. 画面の右側にある[ 参照解 答]または [採点ノート ]ボックスに入力内容を入力します。 ジャッジに情報を提供する方法に関する重要なガイドラインについては、 参照回答を提供するためのヒントを参照してください。

  2. 「AIジャッジに聞く」をクリックするか、Enterキーを押します。

審査員は、入力した情報を使用して回答を評価します。 応答に 「正解 」または 「不正解 」のラベルを付け、その根拠を表示します。 「不正」というラベルの付いた応答でも、開発者に重要な情報が提供されます。あなたとAIジャッジが回答が間違っていることに同意した場合、あなたの唯一のタスクは、可能な限り最良の参照回答を入力することです。 AIジャッジが回答を正解または不正解とマークし、あなたが同意しない場合は、 AIジャッジの評価に同意しない場合を参照してください。

審査員の根拠 - 参考回答

参考回答を提供するためのヒント

参照解答モードでは、あなたのタスクは質問に対する正しい答えを書くことです。 審査員は、AIエージェントの応答とあなたが提供した参照回答を比較します。

重要

適切な参照回答には、正しい回答に必要な最小限の事実 のみ を含める必要があります。 別のソースから応答をコピーする場合は、必ず応答を編集して、回答が正しいと見なされるために 必要 のないテキストを削除してください。

必要な情報のみを含め、回答に厳密に必要でない情報を省略することで、Agent Evaluation は出力品質に関するより堅牢なシグナルを提供できます。

AI審査員の評価に同意できない場合

AIジャッジが回答を正解または不正解とマークし、あなたが同意しない場合、最初のステップは、参照解答または採点ノートを編集して、ジャッジを正確な評価に導くことです。

審査員に評価に同意してもらうことができない場合は、可能な限り最良の参考回答または採点ノートを提供し、[AI Judge Rationale] フィールドで [No] をクリックします。これは、開発者にとって有用な情報です。

サムズダウンボタン