ステップ 6.AIエージェントでの品質修正の作成と評価

この記事では、根本原因分析に基づいて生成AI エージェントの品質修正を反復処理し、評価する手順について説明します。

POC ワークフロー図、イテレーション ステップ

AIエージェントの評価の詳細については、「Mosaic AIエージェント評価とは」を参照してください。

要件

  1. 根本原因の分析に基づいて、実装および評価するための取得または生成の潜在的な修正を特定しました。

  2. POC アプリケーション (または別のベースライン チェーン) は、同じ実行に エージェント評価 が格納された MLflow 実行に記録されます。

このセクションのサンプル コードについては、 GitHub リポジトリ を参照してください。

エージェント評価で期待される結果

Databricks MLflow でのエージェント評価実行の出力を示すアニメーション GIF。

上の画像は、MLflow のエージェント評価出力を示しています。

AI エージェントを修正、評価、反復する方法

すべてのタイプで、 B_quality_iteration/02_evaluate_fixes ノートブックを使用して、結果のチェーンをベースライン構成 (POC) と比較して評価し、"勝者" を選択します。 このノートブックは、受賞したエクスペリメントを選択し、レビューアプリまたは本番運用に対応したスケーラブルな REST APIにデプロイするのに役立ちます。

  1. Databricks で、 B_quality_iteration/02_evaluate_fixes ノートブックを開きます。

  2. 実装する修正のタイプに基づいて、次のようになります。

    • データパイプラインの修正の場合:

    • チェーン構成の修正の場合:

      • 02_evaluate_fixes ノートブックの Chain configuration セクションの指示に従って、CHAIN_CONFIG_FIXES 変数にチェーン構成の修正を追加します。

    • チェーン コードの修正の場合:

      • 変更したチェーンコードファイルを作成し、 B_quality_iteration/chain_code_fixes フォルダに保存します。 または、そのフォルダから提供されているチェーンコード修正のいずれかを選択します。

      • 02_evaluate_fixes ノートブックの Chain code セクションの指示に従って、チェーン コード ファイルと必要な追加のチェーン構成を CHAIN_CODE_FIXES 変数に追加します。

  3. Run evaluationセルからノートブックを実行すると、次のようになります。

    • 各修正を評価します。

    • 最高の品質/コスト/レイテンシメトリクスを使用して修正を決定します。

    • 最適なものをレビューアプリと本番運用に対応した REST API にデプロイして、ステークホルダーのフィードバックを得ることができます。