ステップ4. POCの品質を評価する
![評価ステップが強調表示されたワークフロー](../../_images/workflow-baseline.png)
このセクションのサンプル コードについては、GitHub リポジトリを参照してください。
所要時間:5分から60分 時間は、評価セット内の質問の数によって異なります。 100 問の場合、評価には約 5 分かかります。
概要と期待される結果
このステップでは、キュレートした評価セットを使用して POC アプリを評価し、ベースラインの品質、コスト、およびレイテンシを確立します。 評価結果は次のステップで使用され、品質問題の根本原因を特定します。
評価はMosaic AI Agent Evaluationを使用して行われ、このクックブックの「メトリクス」セクションで概説されている品質、コスト、レイテンシのすべての側面を包括的に検討します。
評価セット内の各質問の集計されたメトリックと評価は、 MLflowに記録されます。 詳細については、「 評価出力」を参照してください。
指示
選択した POC ディレクトリの
05_evaluate_poc_quality
ノートブックを開き、 「すべて実行」をクリックします。ノートブックまたは MLflow を使用して評価の結果を検査します。 結果が品質要件を満たしている場合は、直接「デプロイと監視」に進んでください。 POC アプリケーションはDatabricks上に構築されているため、スケーラブルで本番運用対応のREST APIにデプロイする準備ができています。
次のステップ
この POC の品質のベースライン評価を使用して、品質の問題の根本原因を特定し、それらの問題を反復的に修正してアプリを改善します。 ステップ 5「品質問題の根本原因を特定する」を参照してください。