ステップ4. POCの品質を評価する

評価ステップが強調表示されたワークフロー

このセクションのサンプル コードについては、GitHub リポジトリを参照してください。

所要時間:5分から60分 時間は、評価セット内の質問の数によって異なります。 100 問の場合、評価には約 5 分かかります。

概要と期待される結果

このステップでは、キュレートした評価セットを使用して POC アプリを評価し、ベースラインの品質、コスト、およびレイテンシを確立します。 評価結果は次のステップで使用され、品質問題の根本原因を特定します。

評価はMosaic AI Agent Evaluationを使用して行われ、このクックブックの「メトリクス」セクションで概説されている品質、コスト、レイテンシのすべての側面を包括的に検討します。

評価セット内の各質問の集計されたメトリックと評価は、 MLflowに記録されます。 詳細については、「 評価出力」を参照してください。

要件

  • 評価セットが利用可能です。

  • 前のステップからのすべての要件。

指示

  1. 選択した POC ディレクトリの05_evaluate_poc_qualityノートブックを開き、 「すべて実行」をクリックします。

  2. ノートブックまたは MLflow を使用して評価の結果を検査します。 結果が品質要件を満たしている場合は、直接「デプロイと監視」に進んでください。 POC アプリケーションはDatabricks上に構築されているため、スケーラブルで本番運用対応のREST APIにデプロイする準備ができています。

次のステップ

この POC の品質のベースライン評価を使用して、品質の問題の根本原因を特定し、それらの問題を反復的に修正してアプリを改善します。 ステップ 5「品質問題の根本原因を特定する」を参照してください。