メインコンテンツまでスキップ

LLMジャッジ

概要

LLM ジャッジは、品質評価に大規模言語モデルを使用する MLflowスコアラーの一種です。コードベースのスコアラーはプログラムロジックを使用する一方、ジャッジは LLM の推論機能を活用して、有用性、関連性、安全性などの基準に基づいて品質評価を行います。

ジャッジは、品質評価に特化した AI アシスタントと考えてください。ジャッジは、アプリの入力や出力を評価し、実行トレースの全体を調査して、定義した基準に基づいて評価を行うことができます。たとえば、ジャッジはgive me healthy food optionsfood to keep me fitが類似したクエリであることを理解できます。

important

APIsジャッジはスタンドアロン として使用できますが、評価ハーネス および本番運用モニタリング サービス で使用するには、ジャッジを カスタム スコアラー でラップする必要があります。

ジャッジを使うタイミング

ジャッジは、平易な言葉による入力または出力を評価する必要がある場合に使用します。

  • セマンティックの正しさ : 「これは問題に正しく答えていますか?」
  • スタイルとトーン :「これは私たちのブランドボイスに適していますか?」
  • 安全性とコンプライアンス : 「これはコンテンツのガイドラインに準拠していますか?」
  • 相対的な品質 : 「どちらの回答がより役に立ちますか?」

代わりに 、カスタムのコードベースのスコアラー を使用します。

  • 完全一致 :特定のキーワードをチェックする
  • 形式の検証 : JSON 構造、長さの制限
  • パフォーマンス メトリクス : レイテンシー、トークン使用量

ビルトインのLLMジャッジ

MLflow は、一般的なユース ケースに対して、研究で検証されたジャッジを提供します。

Python
from mlflow.genai.scorers import (
Safety, # Content safety
RelevanceToQuery, # Query relevance
RetrievalGroundedness, # RAG grounding
Correctness, # Factual accuracy
RetrievalSufficiency, # Retrieval quality
Guidelines, # Custom pass/fail criteria
ExpectationsGuidelines # Example-specific pass/fail criteria
)

詳細なドキュメントについては、組み込みのジャッジリファレンスを参照してください。

カスタムLLMジャッジ

組み込みのジャッジに加えて、MLflow を使用すると、カスタム プロンプトと指示を使用して独自のジャッジを簡単に作成できます。

カスタムLLMジャッジは、専門的な評価タスクを定義する必要があるとき、成績やスコア(合格/不合格だけでなく)をより細かく制御する必要があるときなどに便利です。 または、エージェントが特定のユースケースに対して適切な決定を下し、操作を正しく実行したことを検証する必要があります。

カスタムプロンプトを使用したジャッジの構築について詳しくは、こちらをご覧ください。

ジャッジ精度

Databricks は、以下を通じてジャッジの品質を継続的に向上させています。

  • 人間の専門家の判断に対する 研究検証
  • メトリクスの追跡 :Cohenのカッパ、精度、F1スコア
  • 学術データセットと実世界のデータセットに対する 多様なテスト

詳細については、 LLM ジャッジの機能強化に関する Databricks ブログ を参照してください。

LLMジャッジを動かすモデルに関する情報

  • LLMジャッジは、Microsoftが運営するAzure OpenAIなどのサードパーティサービスを使用して生成AIアプリケーションを評価する場合があります。
  • Azure OpenAIの場合、Databricksは不正行為モニタリングをオプトアウトしているため、プロンプトや応答はAzure OpenAIに保存されません。
  • 欧州連合(EU)のワークスペースの場合、LLMジャッジはEUでホストされているモデルを使用します。他のすべてのリージョンでは、米国でホストされているモデルを使用します。
  • パートナーを利用したAI機能を無効にすると、 LLMジャッジがパートナーを利用したモデルを呼び出すことができなくなります。 独自のモデルを提供することで、LLM ジャッジを引き続き使用できます。
  • LLM ジャッジは、顧客が生成AIエージェント/アプリケーションを評価するのを支援することを目的としており、ジャッジ LLM アウトプットを LLMのトレーニング、改善、または微調整に使用すべきではありません。

次のステップ

ハウツーガイド

概念