レビューアプリのチャットUIでアプリのバージョンをテストする
MLflow レビュー アプリには組み込みのチャット インターフェイスが含まれており、ドメイン エキスパートが GenAI アプリケーションを対話的にテストし、即座にフィードバックを提供できます。チャット UI を使用して、アプリの雰囲気をチェックします。

チャットUIテストを使用する場合
チャット UI テストは、次のような場合に最適です。
- ドメインエキスパートとの会話フローとマルチターンインタラクションをテストする
- アプリケーションの応答と動作に関する専門家のフィードバックを収集する
- 本番運用の展開前に安全な環境で更新を検証する
前提条件
-
MLflow と必要なパッケージをインストールする必要があります。このガイドで説明されている機能には、MLflow バージョン 3.1.0 が必要です。またはそれ以上。Databricks 統合に必要な追加機能を含む MLflow SDK をインストールまたはアップグレードするには、次のコマンドを実行します。
Bashpip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1" -
開発環境は、GenAI アプリケーション トレースが記録されるMLflowエクスペリメントに接続する必要があります。
- 開発環境を接続するには、「チュートリアル: 開発環境を MLflow に接続する」に従ってください。
-
ドメイン エキスパートがレビュー アプリのチャット UI を使用するには、次の権限が必要です。
-
アカウント アクセス : Databricksアカウントでプロビジョニングを行う必要がありますが、ワークスペースにアクセスする必要はありません。
ワークスペースへのアクセス権を持たないユーザーの場合、アカウント管理者は次のことができます。
- アカウントレベルの SCIM プロビジョニングを使用して、ID プロバイダからユーザーを同期します。
- Databricksにユーザーとグループを手動で登録する
詳細については、ユーザーとグループの管理 を参照してください。
-
エンドポイント アクセス : モデルサービング エンドポイントへの CAN_QUERY 権限。
-
チャットUIでフィードバックを設定して収集する
MLflow レビュー アプリのチャット UI は、デプロイされた GenAI アプリケーションのバージョンに接続し、ドメイン エキスパートがアプリとチャットして即座にフィードバックを提供できるようになります。次のステップに従ってチャット UI を設定し、フィードバックを収集します。
-
Agent Framework を使用してアプリをパッケージ化 し、Agent Framework を用いてモデルサービングエンドポイントとしてデプロイします。
-
エクスペリメントのレビュー アプリにエンドポイントを追加します。
以下の例では、Databricks がホストする LLM をレビュー アプリに追加します。エンドポイントをステップ 1 のアプリのエンドポイントに置き換えます。
from mlflow.genai.labeling import get_review_app
# Get review app for current MLflow experiment
review_app = get_review_app()
# Connect your deployed agent endpoint
review_app.add_agent(
agent_name="claude-sonnet",
model_serving_endpoint="databricks-claude-3-7-sonnet",
)
print(f"Share this URL: {review_app.url}/chat")
- 設定が完了したら、レビュー アプリの URL をドメイン エキスパートと共有します。以下のことが可能になります:
- ウェブブラウザからチャットインターフェースにアクセスする
- 質問を入力してアプリケーションを操作します
- 組み込まれたフィードバック コントロールを使用して、各応答後にフィードバックを提供します
- 会話を続け、複数のやり取りをテストする
アプリコンテンツのレンダリングを確認する
Chat UI は、ドメイン エキスパートのクエリを入力として使用し、ライブ エージェントのエンドポイント応答を出力として使用し、結果を MLflow トレースに保存します。このアプローチでは固定のフィードバック質問が使用されるため、カスタム ラベル付けスキーマを提供する必要はありません。
レビュー アプリは、MLflow トレースからさまざまなコンテンツ タイプを自動的にレンダリングします。
-
取得されたドキュメント :
RETRIEVERの範囲内のドキュメントが表示用にレンダリングされます -
OpenAI 形式のメッセージ : OpenAI チャット会話に続く MLflow トレースの入力と出力がレンダリングされます。
outputsOpenAI形式のChatCompletionsオブジェクトを含むinputsまたは、 OpenAI 形式のチャット メッセージの配列を含むmessagesキーを含むoutputsの辞書messages配列にOpenAI形式のツール呼び出しが含まれている場合、それらもレンダリングされます
-
辞書 : 辞書であるMLflowトレースの入力と出力は、きれいに印刷されたJSONとしてレンダリングされます。
それ以外の場合は、各トレースのルートスパンのinputとoutputコンテンツがレビューの主なコンテンツとして使用されます。
チャットのフィードバックを表示
Chat UI を通じて収集されたすべてのやり取りとフィードバックは、MLflow でトレースとして自動的にキャプチャされます。
チャットのやり取りのトレースを表示するには:
- MLflow UIに移動する
- Review App セッションに関連するエクスペリメントを見つける
- 会話履歴全体を表示するには、トレースを参照してください
- 各回答に添付されたフィードバックを確認する
次のステップ
- より体系的なフィードバック収集のために既存のトレースをラベル付けする方法を学びます
- 本番運用アプリケーションに対するエンドユーザーのフィードバック収集を探索する