Mosaic AI エージェント評価チュートリアル ノートブック (MLflow 2)
備考
MLflow 2
このページでは、MLflow 2 でのエージェント評価版 0.22
の使用方法について説明します。Databricks では、Agent Evaluation と統合された MLflow 3 の使用 >1.0
推奨しています。MLflow 3 では、エージェント評価APIsが mlflow
パッケージの一部になりました。
このトピックに関する情報については、「 評価と監視」を参照してください。
次のノートブックは、Agent Evaluation 独自の LLM ジャッジ、カスタムメトリクス、およびドメインエキスパートからのラベルを使用して、生成 AI アプリを評価する方法を示しています。これは、次のことを示しています。
- 本番運用のログ(トレース)を評価データセットにロードする方法
- 評価を実行し、根本原因分析を行う方法。
- 品質の問題を自動的に検出するカスタムメトリクスを作成する方法。
- 専門家向けの本番運用ログを送信して、評価データセットにラベルを付けて進化させる方法。
エージェントが本番運用前に準備するには、 Mosaic AI エージェントデモノートブックを参照してください。 一般的な情報については、「 Mosaic AI エージェントの評価 (MLflow 2)」を参照してください。