回答と文脈の関連性のジャッジ
MLflow には、GenAI アプリケーションの関連性を評価するための 2 つの組み込み LLM ジャッジが用意されています。これらのジャッジは品質の問題の診断に役立ちます。コンテキストが関連していない場合、生成ステップでは役立つ応答を生成できません。
RelevanceToQuery: アプリのレスポンスがユーザーの入力に直接対応しているかどうかを評価しますRetrievalRelevance: アプリのレトリーバーから返された各ドキュメントが関連しているかどうかを評価します
デフォルトでは、これらのジャッジは、GenAI 品質評価を実行するために設計された、Databricks がホストする LLM を使用します。ジャッジ定義内のmodel引数を使用して、ジャッジモデルを変更できます。モデルは<provider>:/<model-name>形式で指定する必要があります。ここで、 <provider>は LiteLLM 互換のモデル プロバイダーです。モデル プロバイダーとしてdatabricksを使用する場合、モデル名はサービス エンドポイント名と同じになります。
例を実行するための前提条件
- 
MLflow と必要なパッケージをインストールする
Bashpip install --upgrade "mlflow[databricks]>=3.4.0" openai "databricks-connect>=16.1" - 
MLflow エクスペリメントを作成するには、環境のセットアップに関するクイックスタートに従ってください。
 
mlflow.evaluate() での使用
1. 関連性クエリ判定
このスコアラーは、アプリのレスポンスが、無関係なトピックに逸脱することなく、ユーザーの入力に直接対処しているかどうかを評価します。
要件:
- トレース要件 : 
inputsとoutputsはトレースのルート スパン上にある必要があります 
Python
from mlflow.genai.scorers import RelevanceToQuery
eval_dataset = [
    {
        "inputs": {"query": "What is the capital of France?"},
        "outputs": {
            "response": "Paris is the capital of France. It's known for the Eiffel Tower and is a major European city."
        },
    },
    {
        "inputs": {"query": "What is the capital of France?"},
        "outputs": {
            "response": "France is a beautiful country with great wine and cuisine."
        },
    }
]
# Run evaluation with RelevanceToQuery scorer
eval_results = mlflow.genai.evaluate(
    data=eval_dataset,
    scorers=[
        RelevanceToQuery(
            model="databricks:/databricks-gpt-oss-120b",  # Optional. Defaults to custom Databricks model.
        )
    ],
)
2. 検索関連性判定
このスコアラーは、アプリの取得者によって返された各ドキュメントが入力リクエストに関連しているかどうかを評価します。
要件:
- トレース要件 : MLflow トレースには、 
span_typeが 1 に設定されたスパンが少なくとも 1 つ含まれている必要があります。RETRIEVER 
Python
import mlflow
from mlflow.genai.scorers import RetrievalRelevance
from mlflow.entities import Document
from typing import List
# Define a retriever function with proper span type
@mlflow.trace(span_type="RETRIEVER")
def retrieve_docs(query: str) -> List[Document]:
    # Simulated retrieval - in practice, this would query a vector database
    if "capital" in query.lower() and "france" in query.lower():
        return [
            Document(
                id="doc_1",
                page_content="Paris is the capital of France.",
                metadata={"source": "geography.txt"}
            ),
            Document(
                id="doc_2",
                page_content="The Eiffel Tower is located in Paris.",
                metadata={"source": "landmarks.txt"}
            )
        ]
    else:
        return [
            Document(
                id="doc_3",
                page_content="Python is a programming language.",
                metadata={"source": "tech.txt"}
            )
        ]
# Define your app that uses the retriever
@mlflow.trace
def rag_app(query: str):
    docs = retrieve_docs(query)
    # In practice, you would pass these docs to an LLM
    return {"response": f"Found {len(docs)} relevant documents."}
# Create evaluation dataset
eval_dataset = [
    {
        "inputs": {"query": "What is the capital of France?"}
    },
    {
        "inputs": {"query": "How do I use Python?"}
    }
]
# Run evaluation with RetrievalRelevance scorer
eval_results = mlflow.genai.evaluate(
    data=eval_dataset,
    predict_fn=rag_app,
    scorers=[
        RetrievalRelevance(
            model="databricks:/databricks-gpt-oss-120b",  # Optional. Defaults to custom Databricks model.
        )
    ]
)
カスタマイズ
さまざまなジャッジモデルを提供することで、これらのジャッジをカスタマイズできます。
Python
from mlflow.genai.scorers import RelevanceToQuery, RetrievalRelevance
# Use different judge models
relevance_judge = RelevanceToQuery(
    model="databricks:/databricks-gpt-5-mini"  # Or any LiteLLM-compatible model
)
retrieval_judge = RetrievalRelevance(
    model="databricks:/databricks-claude-opus-4-1"
)
# Use in evaluation
eval_results = mlflow.genai.evaluate(
    data=eval_dataset,
    predict_fn=rag_app,
    scorers=[relevance_judge, retrieval_judge]
)
結果の解釈
ジャッジは、次の Feedback オブジェクトを返します。
value: 文脈が適切であれば「はい」、そうでない場合は「いいえ」rationale:コンテキストが関連性があるか無関係であると見なされた理由の説明
次のステップ
- 他の組み込みジャッジを探索する- 根拠、安全性、正確性のジャッジについて学ぶ
 - カスタムジャッジの作成 - ユースケースに特化したジャッジを構築します
 - RAGアプリケーションの評価 - 包括的なRAG評価に関連性ジャッジを適用します