人間のフィードバック
ユーザーの期待に応える高品質のGenAIアプリケーションを構築するには、人間のフィードバックが不可欠です。MLflow は、開発者、エンド ユーザー、およびドメインの専門家からのフィードバックを収集、管理、および利用するためのツールとデータ モデルを提供します。
データ モデルの概要
MLflow は、人間のフィードバックを 評価として保存し、個々の MLflow トレースにアタッチします。これにより、フィードバックは特定のユーザークエリと GenAI アプリの出力とロジックに直接リンクされます。
評価には 2 つのタイプがあります。
- フィードバック: アプリの 実際の出力 または中間ステップを評価します。たとえば、「エージェントの対応は良かったか」などの質問に答えます。フィードバックは、評価やコメントなど、アプリが生成した内容を評価します。フィードバックは、アプリによって生成されたものを評価し、定性的な知見を提供します。
- 期待値: アプリが 生成するはずだった 望ましい 結果または正しい結果 (グラウンド トゥルース) を定義します。たとえば、ユーザーのクエリに対する「理想的な応答」などです。特定の入力に対して、Expectationは常に同じです。期待値は、アプリが生成する内容を定義し、 評価データセットを作成するのに役立ちます。
評価は、トレース全体またはトレース内の特定のスパンにアタッチできます。
データ・モデルの詳細については、 トレーシング・データ・モデルを参照してください。
フィードバックの収集方法
MLflow は、3 つの主要なソースからフィードバックを収集するのに役立ちます。各ソースは、GenAI アプリのライフサイクルにおけるさまざまなユースケースに合わせて調整されています。フィードバックはさまざまなペルソナから得られますが、基になるデータ モデルはすべてのペルソナで同じです。
開発者フィードバック
開発中は、トレースに直接注釈を付けることができます。これは、将来の参照テストや回帰テストのために特定の例を作成してマークするときに、品質ノートを追跡するのに役立ちます。開発中にフィードバックに注釈を付ける方法については、「 開発におけるラベリング」を参照してください。
ドメイン専門家のフィードバックと期待
各分野の専門家に協力を依頼して、アプリの出力に関する構造化されたフィードバックと、アプリの入力に対する期待値を提供します。彼らの詳細な評価は、特定のユースケースで高品質で正しい回答がどのように見えるかを定義するのに役立ち、LLMジャッジを微妙なビジネス要件に合わせるために非常に貴重です。ドメインの専門家のフィードバックを収集する方法については、「 ドメインの専門家のフィードバックを収集する」を参照してください。
エンドユーザーからのフィードバック
本番運用では、ライブ アプリケーションと対話しているユーザーからのフィードバックをキャプチャします。 これにより、実際のパフォーマンスに関する重要な知見が得られ、修正が必要な問題のあるクエリを特定し、成功したインタラクションを強調表示して将来の更新時に保持するのに役立ちます。 エンドユーザーのフィードバックを収集する方法については、「 エンドユーザーのフィードバックの収集」を参照してください。
次のステップ
これらの推奨アクションとチュートリアルで旅を続けてください。
- 開発におけるラベリング - 開発中の品質を追跡するためのトレースの注釈付けを開始します
- ドメインの専門家からのフィードバックを収集する - 専門家による体系的なレビュープロセスを設定する
- ドメインエキスパートによるVibeチェック - エキスパートとインタラクティブにアプリをテストします
リファレンスガイド
- レビュー アプリ - MLflow の人間フィードバック インターフェイスを理解します。
- ラベリングセッション - 専門家によるレビューセッションの仕組みを学びます。
- ラベル付けスキーマ - フィードバックの構造と種類を調べます。