評価と監視
MLflowの評価およびモニタリング機能は、生成AIアプリケーションのライフサイクル全体を通じて、その品質を体系的に測定、改善、維持するのに役立ちます。 開発から本番運用まで、同じ 品質のスコアラー を使用して、コストとレイテンシを管理しながら、アプリケーションが正確で信頼性の高い応答を提供できるようにします。
このページでは、主要な評価とモニタリングのワークフローと概念の概要と、詳細情報へのリンクを提供します。
注記
エージェント評価は、マネージド MLflow 3 と統合されています。Agent Evaluation SDKのメソッドは、 mlflow[databricks]>=3.1
SDK を通じて公開されるようになりました。MLflow 2 とエージェントの評価 コードを MLflow 3 SDK に更新するには、移行ガイドを参照してください。
開発時の評価
生成AI アプリを繰り返しテストおよび改善するには、事前構築済みのスコアラーとカスタムのスコアラーを使用してキュレーションされた評価データセット に対して評価を実行します。MLflowの評価ハーネス は、アプリの新しいバージョンをテストするのに役立ち、次のことが求められます。
- 変更によって品質が向上したかどうかを判断する
- 品質問題の根本原因を特定する
- アプリのさまざまなバージョンを並べて比較する
- 変更によって回帰が発生しなかったことを確認する
本番運用におけるモニタリング
備考
ベータ版
モニタリングは ベータ版です。
デプロイされたアプリのパフォーマンスと品質を継続的に追跡します。MLflowのモニタリング機能により、次のことが可能になります。
使い始める
評価クイックスタートから始めて、最初の 生成AI アプリを数分で評価します。
次のステップ
これらの推奨アクションとチュートリアルで旅を続けてください。
- アプリを評価する - 評価ワークフローの詳細をご覧ください
- 事前定義された LLM スコアラーを使用する - 研究に裏打ちされた質の高いメトリクスから始める
- 評価データセットの作成 - 本番運用データから包括的なテストセットを構築
リファレンスガイド
このガイドで説明されている概念と機能の詳細なドキュメントをご覧ください。