メインコンテンツまでスキップ

LLMベースのスコアラー

概要

審査員は、LLM ベースの品質評価のための MLflow の SDK/API ビルディング ブロックです。各審査員は、生成AI 品質評価を実行するために設計された 、特別に調整された Databricks ホスト型 LLM モデル を使用します。

ジャッジは、品質評価を専門とするAIアシスタントと考えてください - 彼らはアプリの出力を読み取り、定義した基準に基づいて評価を行います。たとえば、 give me healthy food options クエリと同じクエリであり、 food to keep me fit 非常に類似したクエリであることを理解することができます。

important

APIsジャッジは単体の として利用できますが、評価ハーネス本番運用モニタリング サービスで使用するためには、ジャッジをスコアラーでラップする必要があります。

ジャッジを使うタイミング

ジャッジは、平易な言葉による入力または出力を評価する必要がある場合に使用します。

  • セマンティックの正しさ : 「これは問題に正しく答えていますか?」
  • スタイルとトーン :「これは私たちのブランドボイスに適していますか?」
  • 安全性とコンプライアンス : 「これはコンテンツのガイドラインに準拠していますか?」
  • 相対的な品質 : 「どちらの回答がより役に立ちますか?」

代わりに 、カスタムのコードベースのスコアラー を使用します。

  • 完全一致 :特定のキーワードをチェックする
  • 形式の検証 : JSON 構造、長さの制限
  • パフォーマンス メトリクス : レイテンシー、トークン使用量

審査員の深堀り

特定の審査員に関する詳しい情報はこちら

事前定義されたジャッジ

MLflow は、一般的なユース ケースに対して、研究で検証されたジャッジを提供します。

Python
from mlflow.genai.judges import (
is_safe, # Content safety
is_relevant, # Query relevance
is_grounded, # RAG grounding
is_correct, # Factual accuracy
is_context_sufficient # Retrieval quality
)

詳細なドキュメントについては 、事前定義されたジャッジリファレンス を参照してください。

カスタムジャッジ

ドメイン固有のジャッジを構築するには、次の 2 つのアプローチを使用します。

  1. ガイドラインベース (推奨される開始点) - 利害関係者に説明しやすい自然言語の合格/不合格の基準。コンプライアンスチェック、スタイルガイド、または情報の包含/除外に最適です。

  2. プロンプトベース - 複雑な評価のための完全なプロンプトのカスタマイズ。複数の出力値 (例: "great"、"ok"、"bad") や、合格/不合格のガイドラインとして表現できない条件が必要な場合に使用します。

ジャッジ精度

Databricks は、以下を通じてジャッジの品質を継続的に向上させています。

  • 人間の専門家の判断に対する 研究検証
  • メトリクスの追跡 :Cohenのカッパ、精度、F1スコア
  • 学術データセットと実世界のデータセットに対する 多様なテスト

詳細については、 LLM ジャッジの機能強化に関する Databricks ブログ を参照してください。

LLMジャッジを動かすモデルに関する情報

  • LLMジャッジは、Microsoftが運営するAzure OpenAIなどのサードパーティサービスを使用して生成AIアプリケーションを評価する場合があります。
  • Azure OpenAIの場合、Databricksは不正行為モニタリングをオプトアウトしているため、プロンプトや応答はAzure OpenAIに保存されません。
  • 欧州連合(EU)のワークスペースの場合、LLMジャッジはEUでホストされているモデルを使用します。他のすべてのリージョンでは、米国でホストされているモデルを使用します。
  • パートナーが提供する AI 支援機能 を無効にすると、LLM の裁判官がパートナーが提供するモデルを呼び出すことができなくなります。
  • LLM ジャッジは、顧客が生成AIエージェント/アプリケーションを評価するのを支援することを目的としており、ジャッジ LLM アウトプットを LLMのトレーニング、改善、または微調整に使用すべきではありません。

次のステップ

ハウツーガイド

概念