ビルトインのLLMジャッジ
組み込みのLLMジャッジは、DatabricksがホストするLLMを使用して、関連性、安全性、根拠、正確性など、GenAIアプリケーションの一般的な品質側面を評価する、事前に定義されたスコアラーです。品質評価を迅速に開始したい場合に活用してください。審査員をより細かく制御したい場合は、カスタムのLLM審査員またはPython(コードベースの採点者)を使用してください。
完全なリストと詳細なドキュメントについては、 MLflow の事前定義スコアラーのドキュメントを参照してください。
ジャッジ
ジャッジ | 引数 | 正解データが必要 | 評価対象 |
|---|---|---|---|
| No | その回答はユーザーのリクエストに直接関連していますか? | |
| No | 取得したコンテキストは、ユーザーのリクエストに直接関連していますか? | |
| No | そのコンテンツには、有害、不快、または有害な内容は含まれていませんか? | |
| No | その回答は、文脈の中で提供された情報に基づいていますか?エージェントは幻覚を見ているのか? | |
| はい | 提示された正解データと比較して、回答は正しいですか? | |
| はい | 文脈は、真実の事実を含む回答を生成するために必要なすべての情報を提供しているか? | |
| No | 回答は指定された自然言語の基準を満たしていますか? | |
| いいえ(ただし、期待値に関するガイドラインは必要です) | その回答は、個々の例における自然言語の基準を満たしていますか? | |
| はい | ツール呼び出しと引数は、ユーザーのクエリに対して正しいですか? | |
| No | ツール呼び出しは冗長性がなく効率的ですか? |
複数ターン制の審判
対話型AIシステム向けに、MLflowは個々の発言ではなく、会話全体を評価する審査員を提供します。これらの審査員は、会話の履歴全体を分析し、複数のやり取りを通して現れる質のパターンを評価する。
開発中の評価と本番運用でのモニタリングの両方に、複数ターンの審査員を使用します。
完全なリストと詳細なドキュメントについては、 MLflow の事前定義スコアラーのドキュメントを参照してください。
ジャッジ | 引数 | 正解データが必要 | 評価対象 |
|---|---|---|---|
| No | 担当者は会話を通して、ユーザーからのすべての質問に答えましたか? | |
| No | ユーザーはイライラしたか?不満は解消されたのか? | |
| No | エージェントは、会話の前半で得た情報を正しく記憶しているか? | |
| No | アシスタントの応答は、会話全体を通して提示されたガイドラインに準拠していますか? | |
| No | アシスタントは会話全体を通して割り当てられた役割を維持できていますか? | |
| No | アシスタントの回答は安全で、有害な内容は含まれていませんか? | |
| No | 会話全体を通して、ツールの使用は効率的かつ適切だったか? |
次のステップ
- 裁判官の力となるLLMを選ぼう
- 組み込みの審査員がユースケースに合わない場合は、カスタムのLLM審査員を構築してください。
- 審査員と人間のフィードバックを連携させて、あなたのドメインにおける精度を向上させましょう。