メインコンテンツまでスキップ

Mosaic AI エージェント評価チュートリアル ノートブック (MLflow 2)

important

Databricks MLflow 3 の使用を推奨します。 MLflow 3では、エージェント評価 APIs が mlflow パッケージに含まれています。 MLflow 3 情報 このトピックについては、「評価と監視」を参照してください。

このページでは、MLflow 2 を使用したエージェントの評価について説明します。

次のノートブックは、Agent Evaluation 独自の LLM ジャッジ、カスタムメトリクス、およびドメインエキスパートからのラベルを使用して、生成 AI アプリを評価する方法を示しています。これは、次のことを示しています。

  • 本番運用のログ(トレース)を評価データセットにロードする方法
  • 評価を実行し、根本原因分析を行う方法。
  • 品質の問題を自動的に検出するカスタムメトリクスを作成する方法。
  • 専門家向けの本番運用ログを送信して、評価データセットにラベルを付けて進化させる方法。

エージェントが本番運用前に準備するには、 Mosaic AI エージェントデモノートブックを参照してください。 一般的な情報については、「 Mosaic AI エージェントの評価 (MLflow 2)」を参照してください。

エージェント評価のカスタムメトリクス、ガイドライン、およびドメインエキスパートラベルノートブック

Open notebook in new tab