ログと評価の表示

プレビュー

この機能は プライベート プレビュー段階です。 お試しになるには、Databricks の担当者にお問い合わせください。

別のRAG Studioドキュメントをお探しですか?RAGドキュメントインデックスに移動

このチュートリアルでは、アプリケーションからログを表示するプロセスについて説明します。

  • 🗂️ Request Log: 🔗 Chain実行の詳細なトレース

  • 👍 Assessment & Evaluation Results Log: 👤 End Users & 🧠 Expert Users🤖 LLM Judgesの評価

前のチュートリアルでデプロイした 💬 Review UI を使用して、いくつかのログを生成し、データを表示します。

ここでは、 RAGアプリケーションの初期化のステップに従っていることを前提としています。

ステップ 1: Review App を使用して人間から評価を収集する

  1. 前の手順でデプロイした 💬 Review UI を開きます。

  2. 質問をしてアプリケーションを操作します。

    次のことをお勧めします。

    • 左側の New Chat を押します。

      • what is rag studio?に質問し、その後に how do i set up the dev environment for it?

    • 左側の New Chat を押します。

      • 頼む what is mlflow?

    RAGアプリケーション
  3. 質問をすると、ボットの回答の下にフィードバックウィジェットが表示されます。 少なくとも、「この回答はあなたの質問に対して正しいですか?」という親指を立てたり下げたりします。

    フィードバックを提供する前に、次のことを行ってください。

    フィードバック UI 導入前

    フィードバックを提供した後、次のことを行います。

    フィードバック UI が完了しました

ステップ 2: LLMジャッジから評価を収集する

  1. サンプル アプリは、アプリケーションとの対話ごとに評価を提供する 🤖 LLM Judge を自動的に持つように構成されています。

    注:

    LLM ジャッジの構成の詳細については、 「🤖 LLM ジャッジ」を参照してください。

  2. そのため、LLMの審査員は、ステップ1で質問した質問に対してすでに評価を提供しています。

ステップ 3: オンライン評価 ETL を実行する

レビュー担当者とエンド ユーザー環境では、ログと評価を処理するための ETL ジョブが自動的に実行されます。 開発環境(現在作業している環境)では、ETLジョブを手動で実行する必要があります。

警告

RAG Studioのロギングは 推論テーブル に基づいており、ログはETLdの準備が整うまでに10〜30分かかる場合があります。 以下のジョブを実行しても結果が表示されない場合は、10 分待ってからもう一度やり直してください。

  1. 次のコマンドを実行して、ログの ETL プロセスを開始します。 このステップの所要時間は約5分です。

    ./rag run-online-eval -e dev
    

ステップ 4.ログを表示する

RAG Studioは、構成したUnity Catalogスキーマ内にすべてのログを格納します。

注:

ロギングスキーマは、メトリクスの測定を可能にするように設計されています。 これらのログを使用してメトリクスをコンピュートする方法の詳細については、「 メトリック」を参照してください

  1. カタログ ブラウザを開き、スキーマに移動します。

  2. スキーマには、以下のテーブルが表示されます

    1. 🗂️ Request Log: 🔗 Chain実行の詳細な痕跡。ETL ジョブによって作成される

    2. 👍 Assessment & Evaluation Results Log: 👤 End Users & 🧠 Expert Users および 🤖 LLM Judges;ETL ジョブによって作成される

    3. 未加工のペイロード ログ テーブル: ETL ジョブで使用される未加工のペイロード ログ。

    ログ
  3. まず、 🗂️ Request Logを調べてみましょう。

    select * from catalog.schema.`rag_studio_databricks-docs-bot_dev_request_log`
    
    • request: ボットへのユーザーの入力

    • trace:アプリの 🔗 Chain

    • output: ボットが生成した応答で、ユーザーに返されたもの

    ログ
  4. 次に、 👍 Assessment & Evaluation Results Logを調べてみましょう。 各 request.request_id には複数の評価があります。

    select * from catalog.schema.`rag_studio_databricks-docs-bot_dev_assessment_log`
    
    • request_id: request.request_id にマップします。 🗂️ Request Log

    • source: フィードバックを提供したユーザー - 人間のユーザーIDまたは 🤖 LLM Judge ID

    • text_assessment: 要求に対する sourceの評価

    • output: ボットが生成した応答で、ユーザーに返されたもの

    ログ

    注:

    retrieval_assessmentsという追加の列があります - これは🔍 Retrieverの評価に使用されます。RAG Studioのこのリリースでは、 📖 Evaluation Set およびオフライン評価を使用してのみ、検索評価が可能です。 今後のリリースには、 💬 Review UI および 🤖 LLM Judgeユーザーからの取得評価をキャプチャするためのサポートが含まれます。

次のチュートリアルに従ってください!

評価セットを使用した📖オフライン評価の実行