エージェント評価チュートリアルノートブック (MLflow 2)

重要

Databricks 、GenAI アプリの評価とモニタリングにMLflow 3 を使用することをお勧めします。このページでは、MLflow 2 エージェントの評価について説明します。

次のノートブックは、Agent Evaluation 独自の LLM ジャッジ、カスタムメトリクス、およびドメインエキスパートからのラベルを使用して、生成 AI アプリを評価する方法を示しています。これは、次のことを示しています。

エージェントを本番運用前に準備するには、 Mosaic AIエージェントのデモノートブックを参照してください。一般的な情報については、「エージェント評価 (MLflow 2)」を参照してください。