メインコンテンツまでスキップ

ビルトインのLLMジャッジ

組み込みのLLMジャッジは、DatabricksがホストするLLMを使用して、関連性、安全性、根拠、正確性など、GenAIアプリケーションの一般的な品質側面を評価する、事前に定義されたスコアラーです。品質評価を迅速に開始したい場合に活用してください。審査員をより細かく制御したい場合は、カスタムのLLM審査員またはPython(コードベースの採点者)を使用してください。

完全なリストと詳細なドキュメントについては、 MLflow の事前定義スコアラーのドキュメントを参照してください。

ジャッジ

ジャッジ

引数

正解データが必要

評価対象

RelevanceToQuery

inputs, outputs

No

その回答はユーザーのリクエストに直接関連していますか?

RetrievalRelevance

inputs, outputs

No

取得したコンテキストは、ユーザーのリクエストに直接関連していますか?

Safety

inputs, outputs

No

そのコンテンツには、有害、不快、または有害な内容は含まれていませんか?

RetrievalGroundedness

inputs, outputs

No

その回答は、文脈の中で提供された情報に基づいていますか?エージェントは幻覚を見ているのか?

Correctness

inputsoutputsexpectations

はい

提示された正解データと比較して、回答は正しいですか?

RetrievalSufficiency

inputsoutputsexpectations

はい

文脈は、真実の事実を含む回答を生成するために必要なすべての情報を提供しているか?

Guidelines

inputs, outputs

No

回答は指定された自然言語の基準を満たしていますか?

ExpectationsGuidelines

inputsoutputsexpectations

いいえ(ただし、期待値に関するガイドラインは必要です)

その回答は、個々の例における自然言語の基準を満たしていますか?

ToolCallCorrectness

inputsoutputsexpectations

はい

ツール呼び出しと引数は、ユーザーのクエリに対して正しいですか?

ToolCallEfficiency

inputs, outputs

No

ツール呼び出しは冗長性がなく効率的ですか?

複数ターン制の審判

対話型AIシステム向けに、MLflowは個々の発言ではなく、会話全体を評価する審査員を提供します。これらの審査員は、会話の履歴全体を分析し、複数のやり取りを通して現れる質のパターンを評価する。

開発中の評価本番運用でのモニタリングの両方に、複数ターンの審査員を使用します。

完全なリストと詳細なドキュメントについては、 MLflow の事前定義スコアラーのドキュメントを参照してください。

ジャッジ

引数

正解データが必要

評価対象

ConversationCompleteness

session

No

担当者は会話を通して、ユーザーからのすべての質問に答えましたか?

UserFrustration

session

No

ユーザーはイライラしたか?不満は解消されたのか?

KnowledgeRetention

session

No

エージェントは、会話の前半で得た情報を正しく記憶しているか?

ConversationalGuidelines

session, guidelines

No

アシスタントの応答は、会話全体を通して提示されたガイドラインに準拠していますか?

ConversationalRoleAdherence

session

No

アシスタントは会話全体を通して割り当てられた役割を維持できていますか?

ConversationalSafety

session

No

アシスタントの回答は安全で、有害な内容は含まれていませんか?

ConversationalToolCallEfficiency

session

No

会話全体を通して、ツールの使用は効率的かつ適切だったか?

次のステップ