メインコンテンツまでスキップ

エージェント評価チュートリアルノートブック (MLflow 2)

重要

Databricks 、GenAI アプリの評価とモニタリングにMLflow 3 を使用することをお勧めします。このページでは、MLflow 2 エージェントの評価について説明します。

MLflow 3 の評価とモニタリングの概要については、 AIエージェントの評価と監視」を参照してください。
MLflow 3 への移行に関する情報については、「エージェント評価からMLflow 3 に移行する」を参照してください。
このトピックに関する MLflow 3 情報については、「AI エージェントの評価と監視」を参照してください。

次のノートブックは、Agent Evaluation 独自の LLM ジャッジ、カスタムメトリクス、およびドメインエキスパートからのラベルを使用して、生成 AI アプリを評価する方法を示しています。これは、次のことを示しています。

本番運用のログ(トレース)を評価データセットにロードする方法
評価を実行し、根本原因分析を行う方法。
品質の問題を自動的に検出するカスタムメトリクスを作成する方法。
専門家向けの本番運用ログを送信して、評価データセットにラベルを付けて進化させる方法。

エージェントを本番運用前に準備するには、 Mosaic AIエージェントのデモノートブックを参照してください。一般的な情報については、「エージェント評価 (MLflow 2)」を参照してください。

エージェント評価のカスタムメトリクス、ガイドライン、およびドメインエキスパートラベルノートブック

ノートブックを新しいタブで開く