Agent Evaluationから MLflow 3 への移行: クイック リファレンス
このクイック リファレンスでは、 Agent EvaluationとMLflow 2 から MLflow 3の改善されたAPIに移行するための主な変更点をまとめています。Agent EvaluationからMLflow 3 への移行 に関する完全なガイドを参照してください。
更新プログラムのインポート
### Old imports ###
from mlflow import evaluate
from databricks.agents.evals import metric
from databricks.agents.evals import judges
from databricks.agents import review_app
### New imports ###
from mlflow.genai import evaluate
from mlflow.genai.scorers import scorer
from mlflow.genai import judges
# For predefined scorers:
from mlflow.genai.scorers import (
    Correctness, Guidelines, ExpectationsGuidelines,
    RelevanceToQuery, Safety, RetrievalGroundedness,
    RetrievalRelevance, RetrievalSufficiency
)
import mlflow.genai.labeling as labeling
import mlflow.genai.label_schemas as schemas
評価機能
MLflow 2.x  | MLflow 3.x  | 
|---|---|
  | 
  | 
  | 
  | 
  | (不要)  | 
  | 
  | 
  | (スコアラーでの設定)  | 
ジャッジの選択
MLflow 2.x  | MLflow 3.x  | 
|---|---|
データに基づいて該当するすべてのジャッジを自動的に実行します  | 使用するスコアラーを明示的に指定する必要があります  | 
  | 
  | 
  | 
  | 
利用可能なデータフィールドに基づいて選ばれるジャッジ  | どのスコアラーを実行するかを正確に制御します  | 
データフィールド
MLflow 2.x フィールド  | MLflow 3.x フィールド  | 説明  | 
|---|---|---|
  | 
  | エージェント入力  | 
  | 
  | エージェントの出力  | 
  | 
  | グラウンドトゥルース  | 
  | トレース経由でアクセス  | トレースからのコンテキスト  | 
  | スコアラー設定の一部  | スコアラーレベルに移動  | 
カスタムメトリクスとスコアラー
MLflow 2.x  | MLflow 3.x  | 注  | 
|---|---|---|
  | 
  | 新規名  | 
  | 
  | 簡易  | 
複数の expected_* パラメータ  | dict である 1 つの   | 連結  | 
  | 
  | 簡易  | 
  | 
  | 一貫した命名  | 
  | 
  | 一貫した命名  | 
結果へのアクセス
MLflow 2.x  | MLflow 3.x  | 
|---|---|
  | 
  | 
DataFrame への直接アクセス  | トレースと評価の反復処理  | 
LLMジャッジ
ユースケース  | MLflow 2.x  | MLflow 3.x 推奨  | 
|---|---|---|
基本的な正確性チェック  | 
  | 
  | 
安全性評価  | 
  | 
  | 
グローバルガイドライン  | 
  | 
  | 
評価セット行ごとのガイドライン  | 
  | 
  | 
事実に基づく裏付けを確認する  | 
  | 
  | 
コンテキストの関連性を確認する  | 
  | 
  | 
コンテキストチャンクの関連性を確認する  | 
  | 
  | 
コンテキストの完全性を確認する  | 
  | 
  | 
複雑なカスタムロジック  | 直接のジャッジコール   | 事前定義されたスコアラーまたはジャッジコールによる  | 
人間のフィードバック
MLflow 2.x  | MLflow 3.x  | 
|---|---|
  | 
  | 
  | 
  | 
  | 
  | 
  | 
  | 
一般的な移行コマンド
# Find old evaluate calls
grep -r "mlflow.evaluate" . --include="*.py"
# Find old metric decorators
grep -r "@metric" . --include="*.py"
# Find old data fields
grep -r '"request":\|"response":\|"expected_response":' . --include="*.py"
# Find old imports
grep -r "databricks.agents" . --include="*.py"
追加のリソース
移行中のその他のサポートについては、MLflow のドキュメントを参照するか、Databricks サポート チームにお問い合わせください。