ステップ 6.AIエージェントでの品質修正の作成と評価
この記事では、根本原因分析に基づいて生成AI エージェントの品質修正を反復処理し、評価する手順について説明します。
AIエージェントの評価の詳細については、「Mosaic AIエージェント評価とは」を参照してください。
要件
POC アプリケーション (または別のベースライン チェーン) は、同じ実行に エージェント評価 が格納された MLflow 実行に記録されます。
このセクションのサンプル コードについては、 GitHub リポジトリ を参照してください。
AI エージェントを修正、評価、反復する方法
すべてのタイプで、 B_quality_iteration/02_evaluate_fixes ノートブックを使用して、結果のチェーンをベースライン構成 (POC) と比較して評価し、"勝者" を選択します。 このノートブックは、受賞したエクスペリメントを選択し、レビューアプリまたは本番運用に対応したスケーラブルな REST APIにデプロイするのに役立ちます。
Databricks で、 B_quality_iteration/02_evaluate_fixes ノートブックを開きます。
実装する修正のタイプに基づいて、次のようになります。
データパイプラインの修正の場合:
ステップ 6 (パイプライン) に従います。データパイプライン修正を実装して新しいデータパイプラインを作成し、実行結果の名前MLflowを取得します。
実行名を
DATA_PIPELINE_FIXES_RUN_NAMES
変数に追加します。
チェーン構成の修正の場合:
02_evaluate_fixes ノートブックの
Chain configuration
セクションの指示に従って、CHAIN_CONFIG_FIXES
変数にチェーン構成の修正を追加します。
チェーン コードの修正の場合:
変更したチェーンコードファイルを作成し、 B_quality_iteration/chain_code_fixes フォルダに保存します。 または、そのフォルダから提供されているチェーンコード修正のいずれかを選択します。
02_evaluate_fixes ノートブックの
Chain code
セクションの指示に従って、チェーン コード ファイルと必要な追加のチェーン構成をCHAIN_CODE_FIXES
変数に追加します。
Run evaluation
セルからノートブックを実行すると、次のようになります。各修正を評価します。
最高の品質/コスト/レイテンシメトリクスを使用して修正を決定します。
最適なものをレビューアプリと本番運用に対応した REST API にデプロイして、ステークホルダーのフィードバックを得ることができます。