カスタムLLMスコアラーの作成
MLflow の 事前定義された LLM ジャッジ スコアラー は、単純なアプリケーションで一般的な品質ディメンションの優れた出発点を提供しますが、アプリケーションが複雑になるにつれてカスタム LLM ジャッジを作成し、ユース ケースの特定の微妙なビジネス要件を満たし、ドメイン エキスパートの判断に合わせて評価基準を調整する必要があります。MLflow は、これらの固有の要件に合わせた カスタム LLM ジャッジ を作成するための堅牢で柔軟な方法を提供します。
カスタムジャッジ作成のアプローチ
MLflow には、カスタム ジャッジを構築するための 2 つのアプローチが用意されています。ガイドラインベースのジャッジから始めて、プロンプトベースのジャッジを使用するのは、より制御が必要な場合や、評価基準を合格/不合格のガイドラインとして記述できない場合のみにすることをお勧めします。ガイドラインベースのジャッジには、ビジネスの利害関係者に説明しやすく、多くの場合、ドメインの専門家が直接作成できるという明確な利点があります。
ガイドラインに基づくスコアラー (ここから始めることをお勧めします)
- 最適な用途: 特定の自然言語基準の明確なセットに基づく評価は、合格/不合格の条件として組み立てられます。ルール、スタイルガイド、または情報の包含/除外を使用してコンプライアンスを確認するのに最適です。
- 仕組み: アプリへの特定の入力またはアプリからの出力を参照する一連の平易な言語ルール (
The response must be polite
など) を提供します。次に、LLMはガイドラインが合格するか失敗するかを判断し、その理由の理論的根拠を提供します。
プロンプトベースのスコアラー
- 最適な用途: スコアラーのプロンプトを完全に制御する必要がある、またはスコアラーに複数の出力値 ("great"、"ok"、"bad" など) を指定させる必要がある、複雑で微妙な評価。
- 仕組み: 評価基準を定義し、アプリのトレース内の特定のフィールドのプレースホルダーを持つプロンプト テンプレートを提供します。スコアラーが選択できる出力の選択肢を定義します。次に、LLM は適切な出力選択肢を選択し、その選択の根拠を提供します。
次のステップ
これらの推奨アクションとチュートリアルで旅を続けてください。
- ガイドラインベースの採点者の作成 - 自然言語ルールを使用して評価基準を定義する (推奨)
- プロンプトベースの採点者の作成 - カスタムプロンプトと出力の選択肢を使用して複雑な審査員を構築します
- 本番運用で scorers を実行 - 継続的なモニタリングのためのカスタムジャッジのデプロイ
リファレンスガイド
このガイドで説明されている概念と機能の詳細なドキュメントをご覧ください。
- LLMジャッジ - LLMジャッジの仕組みとそのアーキテクチャを理解する
- カスタムジャッジ:ガイドラインベース - ガイドラインベースの評価の詳細
- カスタムジャッジ: prompt-based - プロンプトベースのジャッジに関する技術的な詳細