メインコンテンツまでスキップ

第三者スコアラー

MLflow人気のあるオープンソース評価フレームワークと統合されているため、組み込まれたLLMジャッジコードベースのスコアラーと並んで、その特殊なメトリクスをスコアラーとして使用できます。 サードパーティのスコアラーはmlflow.genai.evaluate()に直接接続されており、単一の統合インターフェースを通じて評価メトリクスの広範なライブラリにアクセスできるようになります。

サードパーティのスコアラーを使用する理由

サードパーティのスコアラーは、次のような場合に役立ちます。

  • エージェント プランの品質、ジェイルブレイク検出、BLEU/ROUGE テキスト比較スコアなど、組み込み審査員の対象外となる 特殊なメトリクス
  • 評価ワークフローを変更することなく、チームが既に利用しているライブラリから、 フレームワーク固有の強みを引き出すこと ができます。
  • 複数のフレームワークにわたる 評価を 単一のmlflow.genai.evaluate()呼び出しで統合し、結果をMLflow UIでまとめて視覚化します。

利用可能な連携機能

各統合機能は、サードパーティフレームワークのメトリクスをMLflowスコアラーとしてラップします。フレームワークのパッケージをインストールし、スコアラーをインポートして、それをmlflow.genai.evaluate()に渡します。

インテグレーション

使用時期:

DeepEvalスコアラー

RAG、エージェント、会話型AI 、安全性にわたるメトリクスを最も広範囲にカバーする必要があります。 DeepEvalは、エージェントの計画品質、ステップ効率、複数ターンにわたる会話の完了度、役割遵守度など、他のフレームワークでは提供されていない専門的なスコアラーを提供します。

RAGASの得点者

詳細なコンテキストメトリクス(精度、再現率、利用率、ノイズ感度)、エージェント目標の精度、またはLLM呼び出しなしの BLEU、ROUGE などの決定論的なテキスト比較スコア、意味的類似性による RAG の詳細な評価が必要です。

アライズ・フェニックスの得点者

幻覚検出、関連性評価、毒性特定、品質保証の正確性、または要約品質を評価するために、軽量で的を絞ったスコアラーセットが必要です。

TruLensのスコアラー

論理的一貫性、実行効率、計画遵守、ツール選択など、目標・計画・行動の整合性メトリクスを用いてエージェント実行トレースを分析する必要があります。

ガードレールAIスコアラー

毒性検出、個人情報スキャン、脱獄検出、秘密情報検出、意味不明な文字列の識別など、LLM呼び出しなしで実行されるルールベースの出力検証が必要です。

簡単な例

次の例では、2つの異なるフレームワークの評価基準を1つの評価に組み合わせています。

Python
import mlflow
from mlflow.genai.scorers.deepeval import AnswerRelevancy
from mlflow.genai.scorers.guardrails import ToxicLanguage

eval_dataset = [
{
"inputs": {"query": "What is MLflow?"},
"outputs": "MLflow is an open-source platform for managing ML and GenAI workloads.",
},
]

results = mlflow.genai.evaluate(
data=eval_dataset,
scorers=[
AnswerRelevancy(threshold=0.7, model="databricks:/databricks-gpt-5-mini"),
ToxicLanguage(threshold=0.7),
],
)

サードパーティ製スコアラーと組み込みスコアラーを使用する場合

正確性、根拠、安全性などの一般的な評価ニーズについては、組み込みLLMジャッジから始めます。 次のような状況では、サードパーティのスコアラーを追加してください。

  • あなたは既にこれらのライブラリをワークフローで使用しており、MLflowの他の機能も活用したいと考えています。
  • エージェントのステップ効率や会話の完成度など、組み込み審査員がカバーしない特定の領域にはメトリクスが必要です。
  • BLEU スコア、完全一致、または正規表現パターン マッチングなどの決定的な非LLM評価メトリクスが必要です。
  • PII検出やシークレットスキャンなど、LLM呼び出しなしで実行されるルールベースのバリデーターが必要です。