ステップ 4.POC の品質を評価する

評価ステップが強調表示されたワークフロー

このセクションのサンプル コードについては、 GitHub リポジトリ を参照してください。

予想時間:5〜60分。 時間は、評価セットの質問数によって異なります。 100問の場合、評価には約5分かかります。

概要と期待される結果

このステップでは、キュレーションした評価セットを使用して POC アプリを評価し、ベースラインの品質、コスト、待機時間を確立します。 評価結果は、次のステップで品質問題の根本原因を特定するために使用されます。

評価は Mosaic AI Agent Evaluation を使用して行われ、このクックブックの メトリクス セクションで 概説されている品質、コスト、レイテンシのすべての側面を包括的に調べます。

評価セット内の各質問の集計されたメトリクスと評価は、 MLflowに記録されます。 詳細については、「 評価出力」を参照してください。

要件

  • 評価セットが利用可能です。

  • 前の手順のすべての要件。

指示

  1. 選択した POC ディレクトリで 05_evaluate_poc_quality ノートブックを開き、[ すべて実行] をクリックします。

  2. 評価の結果をノートブックで、または MLflow を使用して検査します。 結果が品質要件を満たしている場合は、直接 [デプロイと監視] にスキップできます。 POC アプリケーションは Databricks上に構築されているため、スケーラブルで本番運用可能な REST APIにデプロイする準備ができています。

次のステップ

この POC の品質のベースライン評価を使用して、品質問題の根本原因を特定し、それらの問題を繰り返し修正してアプリを改善します。 ステップ 5 を参照してください。品質問題の根本原因を特定します