Mosaic AI エージェント評価チュートリアル ノートブック (MLflow 2)
important
Databricks 、GenAI アプリの評価とモニタリングにMLflow 3 を使用することをお勧めします。 このページでは、MLflow 2 エージェントの評価について説明します。
- MLflow 3 の評価とモニタリングの概要については、 「評価とモニタリング」を参照してください。
- MLflow 3 への移行に関する情報については、 「エージェント評価からMLflow 3 に移行する」を参照してください。
- このトピックに関するMLflow 3 情報については、 「評価とモニタリング」を参照してください。
次のノートブックは、Agent Evaluation 独自の LLM ジャッジ、カスタムメトリクス、およびドメインエキスパートからのラベルを使用して、生成 AI アプリを評価する方法を示しています。これは、次のことを示しています。
- 本番運用のログ(トレース)を評価データセットにロードする方法
- 評価を実行し、根本原因分析を行う方法。
- 品質の問題を自動的に検出するカスタムメトリクスを作成する方法。
- 専門家向けの本番運用ログを送信して、評価データセットにラベルを付けて進化させる方法。
エージェントが本番運用前に準備するには、 Mosaic AI エージェントデモノートブックを参照してください。 一般的な情報については、「 Mosaic AI エージェントの評価 (MLflow 2)」を参照してください。