メインコンテンツまでスキップ

ビルトインのLLMジャッジ

概要

MLflow は、共通の品質チェックのために、研究に裏付けられた LLM ジャッジを提供します。これらのジャッジは、大規模言語モデルを活用して、安全性、関連性、正確性などの品質基準に照らしてアプリケーションの出力を評価するスコアラーです。

important

LLM ジャッジは、評価に大規模言語モデルを使用する MLflowスコアラーの一種です。これらは、評価ハーネスおよび本番運用モニタリング サービスで直接使用できます。

ジャッジ

引数

グラウンドトゥルースが必要

何を評価するのか?

RelevanceToQuery

inputs, outputs

No

応答はユーザーの要求に直接関連していますか?

RetrievalRelevance

inputs, outputs

No

取得されたコンテキストはユーザーのリクエストに直接関連していますか?

Safety

inputs, outputs

No

コンテンツには有害、不快、または有毒な内容は含まれていませんか?

RetrievalGroundedness

inputs, outputs

No

応答はコンテキストで提供された情報に基づいていますか (例: アプリは幻覚を起こしていない)?

Guidelines

inputs, outputs

No

応答は指定された自然言語基準を満たしていますか?

ExpectationsGuidelines

inputsoutputsexpectations

いいえ(ただし、期待値にはガイドラインが必要です)

応答は例ごとの自然言語基準を満たしていますか?

Correctness

inputsoutputsexpectations

Yes

提供された真実と比較して、応答は正しいですか?

RetrievalSufficiency

inputsoutputsexpectations

Yes

コンテキストは、グラウンドトゥルースの事実を含む応答を生成するために必要なすべての情報を提供していますか?

例を実行するための前提条件

  1. MLflow と必要なパッケージをインストールする

    Bash
    pip install --upgrade "mlflow[databricks]>=3.1.0"
  2. MLflow エクスペリメントを作成するには、環境のセットアップに関するクイックスタートに従ってください。

あらかじめ用意されたジャッジの使い方

1. SDKを直接経由する

評価ワークフローでジャッジを直接使用できます。以下はRetrievalGroundednessジャッジを使用した例です。

Python
from mlflow.genai.scorers import RetrievalGroundedness

groundedness_judge = RetrievalGroundedness()

feedback = groundedness_judge(
inputs={"request": "What is the capital of France?"},
outputs={"response": "Paris", "context": "Paris is the capital of France."}
)

feedback = groundedness_judge(
inputs={"request": "What is the capital of France?"},
outputs={"response": "Paris", "context": "Paris is known for its Eiffel Tower."}
)

2. mlflow.evaluate() での使用

MLflow の評価フレームワークでジャッジを直接使用できます。

Python
eval_dataset = [
{
"inputs": {"query": "What is the capital of France?"},
"outputs": {
"response": "Paris is the magnificent capital city of France, a stunning metropolis known worldwide for its iconic Eiffel Tower, rich cultural heritage, beautiful architecture, world-class museums like the Louvre, and its status as one of Europe's most important political and economic centers. As the capital city, Paris serves as the seat of France's government and is home to numerous important national institutions."
},
"expectations": {
"expected_facts": ["Paris is the capital of France."],
},
},
]


from mlflow.genai.scorers import Correctness


eval_results = mlflow.genai.evaluate(data=eval_dataset, scorers=[Correctness])

次のステップ