評価とモニタリングのリファレンス

このページには、 MLflow評価とモニタリングの概念に関する参考ドキュメントが提供されます。ガイドとチュートリアルについては、「AI エージェントの評価と監視」を参照してください。

ヒント

APIリファレンス

MLflow 3 の評価とモニタリングAPIドキュメントについては、 APIリファレンス」を参照してください。

クイックリファレンス

概念	目的	使用方法
スコアラー	トレースの品質評価	`@scorer` デコレータまたは `Scorer` クラス
ジャッジ	LLMベースの評価	使用するためのスコアラーで包まれています
評価用ハーネス	オフライン評価を実行する	`mlflow.genai.evaluate()`
評価データセット	テストデータの管理	`mlflow.genai.datasets`
評価の実行	評価結果の格納	ハーネスによって作成される
本番運用のモニタリング	ライブ品質の追跡	`Scorer.register`, `Scorer.start`

スコアラー： `mlflow.genai.scorers`

トレースを評価し、フィードバックを返す関数。

Python
from mlflow.genai.scorers import scorer
from mlflow.entities import Feedback
from typing import Optional, Dict, Any, List

@scorer
def my_custom_scorer(
    *,  # MLflow calls your scorer with named arguments
    inputs: Optional[Dict[Any, Any]],  # App's input from trace
    outputs: Optional[Dict[Any, Any]],  # App's output from trace
    expectations: Optional[Dict[str, Any]],  # Ground truth (offline only)
    trace: Optional[mlflow.entities.Trace]  # Complete trace
) -> int | float | bool | str | Feedback | List[Feedback]:
    # Your evaluation logic
    return Feedback(value=True, rationale="Explanation")

スコアラーの詳細

ジャッジ

LLM ジャッジは、品質評価に大規模言語モデルを使用する MLflowスコアラーの一種です。コードベースのスコアラーはプログラムロジックを使用しますが、ジャッジは LLM の推論機能を活用して、有用性、関連性、安全性などの基準を評価します。

Python
from mlflow.genai.scorers import Safety, RelevanceToQuery

# Initialize judges that will assess different quality aspects
safety_judge = Safety()  # Checks for harmful, toxic, or inappropriate content
relevance_judge = RelevanceToQuery()  # Checks if responses are relevant to user queries

# Run evaluation on your test dataset with multiple judges
mlflow.genai.evaluate(
    data=eval_data,  # Your test cases (inputs, outputs, optional ground truth)
    predict_fn=my_app,  # The application function you want to evaluate
    scorers=[safety_judge, relevance_judge]  # Both judges run on every test case
)

ジャッジについてもっと知る

評価ハーネス: `mlflow.genai.evaluate(...)`

開発におけるオフライン評価をオーケストレートします。

Python
import mlflow
from mlflow.genai.scorers import Safety, RelevanceToQuery

results = mlflow.genai.evaluate(
    data=eval_dataset,  # Test data
    predict_fn=my_app,  # Your app
    scorers=[Safety(), RelevanceToQuery()],  # Quality metrics
    model_id="models:/my-app/1"  # Optional version tracking
)

評価ハーネスの詳細

評価データセット: `mlflow.genai.datasets.EvaluationDataset`

バージョン管理されたテストデータとオプションのグラウンドトゥルース。

Python
import mlflow.genai.datasets

# Create from production traces
dataset = mlflow.genai.datasets.create_dataset(
    uc_table_name="catalog.schema.eval_data"
)

# Add traces
traces = mlflow.search_traces(filter_string="trace.status = 'OK'")
dataset.insert(traces)

# Use in evaluation
results = mlflow.genai.evaluate(data=dataset, ...)

評価データセットの詳細

評価の実行: `mlflow.entities.Run`

フィードバック付きのトレースを含む評価の結果。

Python
# Access evaluation results
traces = mlflow.search_traces(run_id=results.run_id)

# Filter by feedback
good_traces = traces[traces['assessments'].apply(
    lambda x: all(a.value for a in x if a.name == 'Safety')
)]

評価ランの詳細

本番運用モニタリング

備考

ベータ版

この機能はベータ版です。

デプロイされたアプリケーションの継続的な評価。

Python
import mlflow
from mlflow.genai.scorers import Safety, ScorerSamplingConfig

# Register the scorer with a name and start monitoring
safety_judge = Safety().register(name="my_safety_judge")  # name must be unique to experiment
safety_judge = safety_judge.start(sampling_config=ScorerSamplingConfig(sample_rate=0.7))

本番運用モニタリングの詳細

クイックリファレンス​

スコアラー： mlflow.genai.scorers​

ジャッジ​

評価ハーネス: mlflow.genai.evaluate(...)​

評価データセット: mlflow.genai.datasets.EvaluationDataset​

評価の実行: mlflow.entities.Run​

本番運用 モニタリング​