ビルトインのLLMジャッジ
概要
MLflow は、共通の品質チェックのために、研究に裏付けられた LLM ジャッジを提供します。これらのジャッジは、大規模言語モデルを活用して、安全性、関連性、正確性などの品質基準に照らしてアプリケーションの出力を評価するスコアラーです。
LLM ジャッジは、評価に大規模言語モデルを使用する MLflowスコアラーの一種です。これらは、評価ハーネスおよび本番運用モニタリング サービスで直接使用できます。
ジャッジ  | 引数  | グラウンドトゥルースが必要  | 何を評価するのか?  | 
|---|---|---|---|
  | No  | 応答はユーザーの要求に直接関連していますか?  | |
  | No  | 取得されたコンテキストはユーザーのリクエストに直接関連していますか?  | |
  | No  | コンテンツには有害、不快、または有毒な内容は含まれていませんか?  | |
  | No  | 応答はコンテキストで提供された情報に基づいていますか (例: アプリは幻覚を起こしていない)?  | |
  | No  | 応答は指定された自然言語基準を満たしていますか?  | |
  | いいえ(ただし、期待値にはガイドラインが必要です)  | 応答は例ごとの自然言語基準を満たしていますか?  | |
  | Yes  | 提供された真実と比較して、応答は正しいですか?  | |
  | Yes  | コンテキストは、グラウンドトゥルースの事実を含む応答を生成するために必要なすべての情報を提供していますか?  | 
例を実行するための前提条件
- 
MLflow と必要なパッケージをインストールする
Bashpip install --upgrade "mlflow[databricks]>=3.1.0" - 
MLflow エクスペリメントを作成するには、環境のセットアップに関するクイックスタートに従ってください。
 
あらかじめ用意されたジャッジの使い方
1. SDKを直接経由する
評価ワークフローでジャッジを直接使用できます。以下はRetrievalGroundednessジャッジを使用した例です。
from mlflow.genai.scorers import RetrievalGroundedness
groundedness_judge = RetrievalGroundedness()
feedback = groundedness_judge(
    inputs={"request": "What is the capital of France?"},
    outputs={"response": "Paris", "context": "Paris is the capital of France."}
)
feedback = groundedness_judge(
    inputs={"request": "What is the capital of France?"},
    outputs={"response": "Paris", "context": "Paris is known for its Eiffel Tower."}
)
2. mlflow.evaluate() での使用
MLflow の評価フレームワークでジャッジを直接使用できます。
eval_dataset = [
    {
        "inputs": {"query": "What is the capital of France?"},
        "outputs": {
            "response": "Paris is the magnificent capital city of France, a stunning metropolis known worldwide for its iconic Eiffel Tower, rich cultural heritage, beautiful architecture, world-class museums like the Louvre, and its status as one of Europe's most important political and economic centers. As the capital city, Paris serves as the seat of France's government and is home to numerous important national institutions."
        },
        "expectations": {
            "expected_facts": ["Paris is the capital of France."],
        },
    },
]
from mlflow.genai.scorers import Correctness
eval_results = mlflow.genai.evaluate(data=eval_dataset, scorers=[Correctness])
次のステップ
- 評価に組み込みの LLM ジャッジを使用する- 組み込みの LLM ジャッジを使い始める
 - カスタム LLM ジャッジを作成- 特定のニーズに合わせてカスタマイズされたジャッジを構築します
 - 評価の実行 - ジャッジを適用して、アプリケーションを体系的に評価します