コードベースのスコアラー
コードベースのスコアラーは、自分で作成するPython関数です。組み込みのLLM審査員やカスタムLLM審査員が評価ニーズに合わない場合に使用してください。例えば、コードベースのスコアラーを使用すると、次のようなことが可能になります。
- カスタムのヒューリスティック評価またはプログラムによる評価メトリクスを定義します。
- トレース データをDatabricksに組み込まれたLLMジャッジにマップする方法をカスタマイズします。
- 評価には、(DatabricksがホストするLLM審査員ではなく)ご自身のLLMを使用してください。
- カスタムLLM審査員が提供する以上の柔軟性と制御が必要なその他のユースケース。
開発での評価と本番運用でのモニタリングに同じコードベースのスコアラーを使用できます。
定義スタイルを選択してください
MLflowは、コードベースのスコアラーを定義する2つの方法をサポートしています。
アプローチ | 使用する場合 | 本番運用のモニタリング |
|---|---|---|
| ほとんどの場合。推奨される出発点。 | サポートされます ( Databricksノートブックから定義および登録された場合)。 |
| ステートフルスコアラー、複雑な初期化、またはPydanticフィールドが必要です。 | サポートされていません。 |
:::note 本番運用モニタリングとの互換性
本番運用モニタリングは、組み込みLLMジャッジと@scorerで装飾された関数をサポートしています。 クラスベースのScorerサブクラスは、本番運用モニタリングでは サポートされていません 。 本番運用でステートフル スコアラーが必要な場合は、 @scorerデコレータを使用して関数本体内の状態を管理します。
@scorer-本番運用モニタリングで使用する装飾関数は、 Databricksノートブック から定義して登録する必要があります。 モニタリング サービスはリモート実行用に関数コードをシリアル化します。このシリアル化にはノートブック環境が必要です。 詳細については、 「カスタムスコアラー関数を使用する」を参照してください。
:::
次のステップ
- コードベースのスコアラーを開発する— コードベースのスコアラーの開発ワークフローをステップスルーします。
- コードベースのスコアラーの例— 一般的なコードベースのスコアラーのパターンを網羅した、具体的な例を示します。
- コードベースのスコアラーリファレンス— 署名、入力、出力、メトリクス命名、エラー処理、シークレットへのアクセスなど、
@scorerとScorerリファレンス。 - 開発中に GenAI を評価する—
mlflow.genai.evaluate()がスコアラーをどのように使用するかを理解します。 - 本番運用で GenAI アプリを監視する— 継続的なモニタリングのためにスコアラーを展開します。