AIエージェントの評価と監視
MLflow は、AI アプリケーションの品質の測定、改善、維持に役立つ包括的なエージェント評価および LLM 評価機能を提供します。MLflow 、LLM、エージェント、RAG システム、またはその他の GenAI アプリケーションのテストから本番運用モニタリングまでの開発ライフサイクル全体をサポートします。
AI エージェントと LLM の評価は、従来の ML モデルの評価よりも複雑です。これらのアプリケーションには、複数のコンポーネント、複数ターンの会話、微妙な品質基準が含まれます。定性的および定量的メトリックスの両方において、パフォーマンスを正確に評価するには専門的な評価アプローチが必要です。
MLflow 3 の評価およびモニタリング コンポーネントは、品質の問題とそれらの問題の根本原因を特定できるように設計されています。 これはMLflow Tracingに基づいて構築されており、開発、テスト、本番運用フェーズでのトレース ログを提供します。 また、 LLMジャッジと人間のフィードバックを収集するための統合レビュー アプリも組み込まれています。 図に示すように、開発と本番運用で同じLLMジャッジが使用されるため、アプリケーションのライフサイクル全体にわたって一貫した評価が保証されます。
この図は、高レベルの反復ワークフローを示しています。

開発中は、評価データセットに対してアプリをテストします。また、レビュー アプリを使用してバージョンを展開し、ドメイン エキスパートがアプリの操作に基づいてテストし、評価データセットに追加することもできます。MLflow の事前構築済みスコアラーまたはカスタム スコアラーを使用して、データセットでのアプリのパフォーマンスを評価できます。
アプリを本番運用にデプロイした後、同じスコアラーを使用してパフォーマンスを監視します。 本番運用クエリからMLflowトレースを保存し、将来の反復的なアプリ開発のために評価データセットに追加できます。
機能 | 説明 |
|---|---|
シンプルな GenAI アプリケーションを使用して MLflow 評価を紹介する簡単なデモ ノートブックを実行します。 | |
シミュレートされた RAG アプリケーションを使用して、完全な評価ワークフローのチュートリアルをステップ実行します。 評価データセットと LLM 審査員を使用して品質を評価し、問題を特定し、アプリを反復的に改善します。 | |
組み込みLLMジャッジ、カスタムLLMジャッジ、およびカスタム スコアラーを使用して、アプリの品質のメトリクスを定義します。 開発と本番運用の両方に同じメトリクスを使用します。 | |
スコアラーと LLM 審査員を使用して、評価データセットで GenAI アプリケーションをテストします。アプリのバージョンを比較し、改善を追跡し、結果を共有します。 | |
本番運用 GenAI アプリケーション トレース上でスコアラーとLLMジャッジが自動的に実行され、品質を継続的に監視します。 |
エージェント評価は、マネージド MLflow 3 と統合されています。エージェント評価 SDK メソッドは、 mlflow[databricks]>=3.1 SDK を使用して使用できるようになりました。MLflow 3 を使用するように MLflow 2 エージェント評価コードを更新するには、「エージェント評価から MLflow 3 に移行する」を参照してください。