メインコンテンツまでスキップ

評価とモニタリング

MLflowの評価およびモニタリング機能は、開発から本番運用までのライフサイクル全体を通じて、GenAI アプリケーションの品質を体系的に測定、改善、維持するのに役立ちます。

生成AIアプリケーションは複雑であり、さまざまなコンポーネントが関係します。これらのアプリケーションのパフォーマンスを評価することは、従来のMLモデルのパフォーマンスを評価するほど簡単ではありません。品質を評価するために使用される定性的および定量的メトリクスは、どちらも本質的に複雑です。

MLflow 3 の評価およびモニタリング コンポーネントは、品質の問題とそれらの問題の根本原因を特定できるように設計されています。 これはMLflow Tracingに基づいて構築されており、開発、テスト、本番運用フェーズでのトレース ログを提供します。 また、 LLMベースのスコアラーと、人間からのフィードバックを収集するための統合レビュー アプリも含まれています。 図に示すように、開発と本番運用で同じLLMベースのスコアラーが使用されるため、アプリケーションのライフサイクル全体で一貫した評価が保証されます。

この図は、高レベルの反復ワークフローを示しています。

MLflow 3の評価とモニタリングの概要図

開発中は、評価データセットに対してアプリをテストします。また、レビュー アプリを使用してバージョンを展開し、ドメイン エキスパートがアプリの操作に基づいてテストし、評価データセットに追加することもできます。MLflow の事前構築済みスコアラーまたはカスタム スコアラーを使用して、データセットでのアプリのパフォーマンスを評価できます。

アプリを本番運用にデプロイした後、同じスコアラーを使用してパフォーマンスを監視します。 本番運用クエリからMLflowトレースを保存し、将来の反復的なアプリ開発のために評価データセットに追加できます。

機能

説明

10分間のデモ: GenAIアプリを評価する

簡単な GenAI アプリケーションの作成とトレース、評価基準の定義、評価の実行、結果の確認、プロンプトの変更と再評価の手順を説明する簡単なデモ ノートブックを実行します。

チュートリアル: GenAI アプリケーションの評価と改善

完全な評価ワークフローのチュートリアルをステップ実行します。 評価データセットを使用して品質を評価し、問題を特定し、アプリを反復的に改善する方法を学びます。

実際の使用状況から評価データセットを作成します。評価ハーネスを使用して、事前に構築されたスコアラーとカスタム スコアラーを使用して品質を評価します。

結果を表示して、品質問題の根本原因を特定するのに役立ちます。バージョンを比較して、変更によって品質が向上し、パフォーマンスの低下が発生しなかったかどうかを判断します。

本番運用(ベータ版)でアプリを監視する

本番運用 GenAI アプリケーション トレースでスコアラーを自動的に実行し、品質を継続的に監視します。 本番運用トラフィックのサンプルを自動的に評価するスコアラーをスケジュールできます。

組み込みのLLMスコアラーを使用する

組み込みLLMベースのスコアラーを使用するのが最も簡単な方法です。

LLMベースのカスタムスコアラーを作成する

アプリケーションが複雑になるにつれて、カスタム LLM ベースのスコアラーを作成し、ユースケースの特定のビジネス要件に合わせて評価基準を調整し、ドメイン エキスパートの判断と一致させることができます。

独自のカスタムスコアラーをコーディングする

カスタム スコアラーにより、特定のビジネス ユース ケースに合わせた評価メトリクスを柔軟に定義できます。

MLflow評価データセットの構築

評価データセットを構築して、GenAI アプリケーションの品質を体系的にテストし、改善します。テストまたは本番運用クエリからのトレースを追加します。

注記

エージェント評価は、マネージド MLflow 3 と統合されています。エージェント評価 SDK メソッドは、 mlflow[databricks]>=3.1 SDK を使用して使用できるようになりました。MLflow 3 を使用するように MLflow 2 エージェント評価コードを更新するには、「エージェント評価から MLflow 3 に移行する」を参照してください。