LLMジャッジ

概要

LLM ジャッジは、品質評価に大規模言語モデルを使用する MLflowスコアラーの一種です。コードベースのスコアラーはプログラムロジックを使用する一方、ジャッジは LLM の推論機能を活用して、有用性、関連性、安全性などの基準に基づいて品質評価を行います。

ジャッジは、品質評価に特化した AI アシスタントと考えてください。ジャッジは、アプリの入力や出力を評価し、実行トレースの全体を調査して、定義した基準に基づいて評価を行うことができます。たとえば、ジャッジはgive me healthy food optionsとfood to keep me fitが類似したクエリであることを理解できます。

important

APIsジャッジはスタンドアロンとして使用できますが、評価ハーネスおよび本番運用モニタリングサービスで使用するには、ジャッジをカスタムスコアラーでラップする必要があります。

ジャッジを使うタイミング

ジャッジは、平易な言葉による入力または出力を評価する必要がある場合に使用します。

セマンティックの正しさ : 「これは問題に正しく答えていますか?」
スタイルとトーン :「これは私たちのブランドボイスに適していますか?」
安全性とコンプライアンス : 「これはコンテンツのガイドラインに準拠していますか?」
相対的な品質 : 「どちらの回答がより役に立ちますか?」

代わりに、カスタムのコードベースのスコアラーを使用します。

完全一致 :特定のキーワードをチェックする
形式の検証 : JSON 構造、長さの制限
パフォーマンスメトリクス : レイテンシー、トークン使用量

ビルトインのLLMジャッジ

MLflow は、一般的なユースケースに対して、研究で検証されたジャッジを提供します。

Python
from mlflow.genai.scorers import (
    Safety,                  # Content safety
    RelevanceToQuery,        # Query relevance
    RetrievalGroundedness,   # RAG grounding
    Correctness,             # Factual accuracy
    RetrievalSufficiency,    # Retrieval quality
    Guidelines,              # Custom pass/fail criteria
    ExpectationsGuidelines   # Example-specific pass/fail criteria
)

詳細なドキュメントについては、組み込みのジャッジリファレンスを参照してください。

カスタムLLMジャッジ

組み込みのジャッジに加えて、MLflow を使用すると、カスタムプロンプトと指示を使用して独自のジャッジを簡単に作成できます。

カスタムLLMジャッジは、専門的な評価タスクを定義する必要があるとき、成績やスコア（合格/不合格だけでなく）をより細かく制御する必要があるときなどに便利です。または、エージェントが特定のユースケースに対して適切な決定を下し、操作を正しく実行したことを検証する必要があります。

カスタムプロンプトを使用したジャッジの構築について詳しくは、こちらをご覧ください。

ジャッジ精度

Databricks は、以下を通じてジャッジの品質を継続的に向上させています。

人間の専門家の判断に対する 研究検証
メトリクスの追跡 :Cohenのカッパ、精度、F1スコア
学術データセットと実世界のデータセットに対する 多様なテスト

詳細については、 LLM ジャッジの機能強化に関する Databricks ブログを参照してください。