評価主導型開発ワークフロー

このセクションでは、高品質の RAG アプリケーションを構築、テスト、およびデプロイするための Databricks 推奨開発ワークフロー (評価主導型開発) について説明します。このワークフローは、高品質の RAG アプリケーションを構築および評価するための Mosaic Research チームの推奨ベストプラクティスに基づいています。 Databricks では、次の評価主導型ワークフローを推奨しています。

要件を定義します。
迅速な概念実証 (POC) に関する関係者のフィードバックを収集します。
POC の品質を評価します。
品質の問題を繰り返し診断して修正します。
本番運用に展開します。
本番運用を監視します。

評価駆動開発には、次の 2 つの主要な概念があります。

メトリクス: 高品質が何を意味するかを定義します。

毎年ビジネス目標を設定する方法と同様に、ユースケースにおける高品質が何を意味するかを定義する必要があります。 Mosaic AI Agent Evaluation では、使用すべきメトリクスの推奨セットが提供されます。その中で最も重要なのは、回答の精度または正確性です。RAG アプリケーションは正しい回答を提供しているでしょうか?
評価セット：メトリクスを客観的に測定します。

品質を客観的に測定するには、人間が検証した既知の適切な回答を含む質問を含む評価セットが必要です。このガイドでは、この評価セットを開発し、反復的に改良するプロセスについて説明します。

メトリクスと評価セットに対してアンカーを設定すると、次の利点が得られます。

開発中にアプリケーションの品質を反復的かつ自信を持って改善できるため、変更によって改善されたかどうかを推測する必要がなくなります。
「当社のアプリケーションがビジネスにとって最も重要な質問に正しく答えており、誤解を招かないことがわかっています」と自信を持って言える場合、本番運用のためのアプリケーションの準備状況についてビジネス関係者と調整することがより簡単になります。

評価主導のワークフローを説明するステップバイステップのチュートリアルについては、「前提条件: 要件の収集」から始めてください。