メインコンテンツまでスキップ

評価と監視

MLflowの評価およびモニタリング機能は、生成AIアプリケーションのライフサイクル全体を通じて、その品質を体系的に測定、改善、維持するのに役立ちます。 開発から本番運用まで、同じ 品質のスコアラー を使用して、コストとレイテンシを管理しながら、アプリケーションが正確で信頼性の高い応答を提供できるようにします。

このページでは、主要な評価とモニタリングのワークフローと概念の概要と、詳細情報へのリンクを提供します。

注記

エージェント評価は、マネージド MLflow 3 と統合されています。Agent Evaluation SDKのメソッドは、 mlflow[databricks]>=3.1 SDK を通じて公開されるようになりました。MLflow 2 とエージェントの評価 コードを MLflow 3 SDK に更新するには、移行ガイドを参照してください。

開発時の評価

生成AI アプリを繰り返しテストおよび改善するには、事前構築済みのスコアラーとカスタムのスコアラーを使用してキュレーションされた評価データセット に対して評価を実行します。MLflowの評価ハーネス は、アプリの新しいバージョンをテストするのに役立ち、次のことが求められます。

  • 変更によって品質が向上したかどうかを判断する
  • 品質問題の根本原因を特定する
  • アプリのさまざまなバージョンを並べて比較する
  • 変更によって回帰が発生しなかったことを確認する

本番運用におけるモニタリング

備考

ベータ版

モニタリングは ベータ版です。

デプロイされたアプリのパフォーマンスと品質を継続的に追跡します。MLflowのモニタリング機能により、次のことが可能になります。

  • 開発と同じ スコアラー を使用して品質を自動的に評価
  • 運用メトリクスの追跡 (レイテンシ、コスト、エラー)
  • パフォーマンスの低いクエリを特定して評価データセットを作成する

使い始める

評価クイックスタートから始めて、最初の 生成AI アプリを数分で評価します。

次のステップ

これらの推奨アクションとチュートリアルで旅を続けてください。

リファレンスガイド

このガイドで説明されている概念と機能の詳細なドキュメントをご覧ください。

  • スコアラー - スコアラーが 生成AI アプリケーションを評価する方法を理解する
  • LLMジャッジ - LLMを評価者として使用する方法を学びます
  • 評価ハーネス - MLflow が評価を調整する方法を確認します