メインコンテンツまでスキップ

人間のフィードバック

ユーザーの期待に応える高品質のGenAIアプリケーションを構築するには、人間のフィードバックが不可欠です。MLflow は、開発者、エンド ユーザー、およびドメインの専門家からのフィードバックを収集、管理、および利用するためのツールとデータ モデルを提供します。

データ モデルの概要

MLflow は、人間のフィードバックを 評価として保存し、個々の MLflow トレースにアタッチします。これにより、フィードバックは特定のユーザークエリと GenAI アプリの出力とロジックに直接リンクされます。

評価には 2 つのタイプがあります。

  1. フィードバック: アプリの 実際の出力 または中間ステップを評価します。たとえば、「エージェントの対応は良かったか」などの質問に答えます。フィードバックは、評価やコメントなど、アプリが生成した内容を評価します。フィードバックは、アプリによって生成されたものを評価し、定性的な知見を提供します。
  2. 期待値: アプリが 生成するはずだった 望ましい 結果または正しい結果 (グラウンド トゥルース) を定義します。たとえば、ユーザーのクエリに対する「理想的な応答」などです。特定の入力に対して、Expectationは常に同じです。期待値は、アプリが生成する内容を定義し、 評価データセットを作成するのに役立ちます。

評価は、トレース全体またはトレース内の特定のスパンにアタッチできます。

データ・モデルの詳細については、 トレーシング・データ・モデルを参照してください。

フィードバックの収集方法

MLflow は、3 つの主要なソースからフィードバックを収集するのに役立ちます。各ソースは、GenAI アプリのライフサイクルにおけるさまざまなユースケースに合わせて調整されています。フィードバックはさまざまなペルソナから得られますが、基になるデータ モデルはすべてのペルソナで同じです。

開発者フィードバック

開発中は、トレースに直接注釈を付けることができます。これは、将来の参照テストや回帰テストのために特定の例を作成してマークするときに、品質ノートを追跡するのに役立ちます。

開発中にフィードバックに注釈を付ける方法については、 「開発中にラベルを付ける」を参照してください。

ドメイン専門家のフィードバック

分野の専門家に依頼して、アプリの出力に関する構造化されたフィードバックを提供し、正しい応答に対する期待を定義します。詳細な評価は、特定のユースケースに対する高品質な応答がどのようなものかを定義するのに役立ち、LLM 審査員を微妙なビジネス要件に合わせて調整するのに非常に役立ちます。

アプリプレビューのヒーローイメージを確認します。

MLflow は、レビュー アプリを使用してドメイン エキスパートのフィードバックを収集するための 2 つのアプローチを提供します。

Chat UI を使用したインタラクティブ テスト : エキスパートは、チャット インターフェースを通じて展開されたアプリとリアルタイムで対話し、会話フローをテストしながら応答に関するフィードバックを即座に提供します。このアプローチは、本番運用導入前の「雰囲気チェック」と定性的検証に最適です。 詳細については、 「Chat UI を使用してアプリ バージョンをテストする」を参照してください。

既存のトレースのラベル付け : 専門家が、アプリからすでにキャプチャされたトレースを体系的に確認し、ラベル付けします。このアプローチは、専門家が特定の例を評価し、実際の期待値を定義する構造化された評価セッションに最適です。詳細については、 「既存のトレースにラベルを付ける」を参照してください。

エンドユーザーからのフィードバック

本番運用では、ライブ アプリケーションを操作するユーザーからのフィードバックを収集します。 これにより、実際のパフォーマンスに関する重要な知見が得られ、修正が必要な問題のあるクエリを特定し、将来の更新時に保持する成功したインタラクションをハイライトするのに役立ちます。 MLflow は、デプロイされたアプリケーションのユーザーからのフィードバックを直接キャプチャ、保存、分析するためのツールを提供します。

エンド ユーザーのフィードバックを収集する方法については、トレース セクションのエンド ユーザー フィードバックの収集ガイドを参照してください。

次のステップ