人間のフィードバック

ユーザーの期待に応える高品質の GenAI アプリケーションを構築するには、人間からのフィードバックが不可欠です。MLflow は、開発者、エンドユーザー、ドメインエキスパートからのフィードバックを収集、管理、活用するためのツールとデータモデルを提供します。人間によるフィードバックが自動評価を補完します。これは、自動化された LLM ジャッジとスコアラー向けのデータセットを作成するのに役立ち、またそれらを人間の専門家の判断と一致させるのにも役立ちます。

データモデルの概要

MLflow は、人間のフィードバックを評価として保存し、個々の MLflow トレースにアタッチします。これにより、フィードバックは特定のユーザークエリと GenAI アプリの出力とロジックに直接リンクされます。

評価には 2 つのタイプがあります。

フィードバック: アプリの 実際の出力 または中間ステップを評価します。たとえば、「エージェントの対応は良かったか」などの質問に答えます。フィードバックは、評価やコメントなど、アプリが生成した内容を評価します。フィードバックは、アプリによって生成されたものを評価し、定性的な知見を提供します。
期待値: アプリが 生成するはずだった 望ましい 結果または正しい結果 (グラウンドトゥルース) を定義します。たとえば、ユーザーのクエリに対する「理想的な応答」などです。特定の入力に対して、Expectationは常に同じです。期待値は、アプリが生成する内容を定義し、評価データセットを作成するのに役立ちます。

評価は、トレース全体またはトレース内の特定のスパンにアタッチできます。

トレースの詳細については、「トレースの概念」を参照してください。

フィードバックの収集方法

MLflow は、3 つの主要なソースからフィードバックを収集するのに役立ちます。各ソースは、GenAI アプリのライフサイクルにおけるさまざまなユースケースに合わせて調整されています。フィードバックはさまざまなペルソナから得られますが、基になるデータモデルはすべてのペルソナで同じです。

開発者フィードバック

開発中は、トレースに直接注釈を付けることができます。これは、将来の参照テストや回帰テストのために特定の例を作成してマークするときに、品質ノートを追跡するのに役立ちます。

開発中にフィードバックに注釈を付ける方法については、「開発中にラベルを付ける」を参照してください。

ドメイン専門家のフィードバック

分野の専門家に依頼して、アプリの出力に関する構造化されたフィードバックを提供し、正しい応答に対する期待を定義します。詳細な評価は、特定のユースケースに対する高品質な応答がどのようなものかを定義するのに役立ち、LLM ジャッジを微妙なビジネス要件に合わせて調整するのに非常に役立ちます。

アプリプレビューのヒーローイメージを確認します。

MLflow は、レビューアプリを使用してドメインエキスパートのフィードバックを収集するための 2 つのアプローチを提供します。

Chat UI を使用したインタラクティブテスト : エキスパートは、チャットインターフェースを通じて展開されたアプリとリアルタイムで対話し、会話フローをテストしながら応答に関するフィードバックを即座に提供します。このアプローチは、本番運用導入前の「雰囲気チェック」と定性的検証に最適です。詳細については、「Chat UI を使用してアプリバージョンをテストする」を参照してください。

既存のトレースのラベル付け : 専門家が、アプリからすでにキャプチャされたトレースを体系的に確認し、ラベル付けします。このアプローチは、専門家が特定の例を評価し、実際の期待値を定義する構造化された評価セッションに最適です。詳細については、「既存のトレースにラベルを付ける」を参照してください。

エンドユーザーからのフィードバック

本番運用では、ライブアプリケーションを操作するユーザーからのフィードバックを収集します。これにより、実際のパフォーマンスに関する重要な知見が得られ、修正が必要な問題のあるクエリを特定し、将来の更新時に保持する成功したインタラクションをハイライトするのに役立ちます。 MLflow は、デプロイされたアプリケーションのユーザーからのフィードバックを直接キャプチャ、保存、分析するためのツールを提供します。

エンドユーザーのフィードバックを収集する方法については、トレースセクションのエンドユーザーフィードバックの収集ガイドを参照してください。

次のステップ

人間のフィードバックを収集することから始めましょう- 人間のフィードバックを収集する一般的な方法を示すこの総合的なチュートリアルをステップスルーしてください。
開発中にラベルを付ける- 開発中に品質を追跡するためにトレースに注釈を付け始めます。
チャット UI を使用してアプリバージョンをテストする- ライブチャットインターフェースを使用してアプリをインタラクティブにテストします。
既存のトレースにラベルを付ける- 体系的な専門家のレビュープロセスを設定します。

データ モデルの概要​

フィードバックの収集方法​

開発者フィードバック​

ドメイン専門家のフィードバック​

エンドユーザーからのフィードバック​

次のステップ​