評価主導型の開発ワークフロー
October 09, 2024
このセクションでは、高品質の RAG アプリケーションをビルド、テスト、デプロイするための Databricks の推奨開発ワークフロー (評価主導型開発) について説明します。 このワークフローは、Mosaic Researchチームが推奨する、高品質なRAGアプリケーションの構築と評価に関するベストプラクティスに基づいています。 Databricks では、次の評価主導のワークフローが推奨されています。
要件を定義します。
迅速な概念実証 (POC) に関する関係者のフィードバックを収集します。
POC の品質を評価します。
品質の問題を繰り返し診断して修正します。
本番運用にデプロイします。
本番運用で監視します。
評価駆動型開発には、次の 2 つの主要な概念があります。
メトリクス: 高品質とは何かを定義します。
毎年ビジネス目標を設定する方法と同様に、ユースケースにとって高品質が何を意味するかを定義する必要があります。 Mosaic AI Agent Evaluationは、RAGアプリケーションが正しい答えを提供しているかどうか、つまり回答の精度や正確性が最も重要な、使用する推奨メトリクスのセットを提供します。
評価セット:メトリクスを客観的に測定します。
品質を客観的に測定するには、人間によって検証された既知の良好な回答を含む質問を含む評価セットが必要です。 このガイドでは、この評価セットを開発および反復的に改良するプロセスについて説明します。
メトリクスと評価セットに対するアンカリングには、次の利点があります。
開発中にアプリケーションの品質を反復的かつ自信を持って改善できるため、変更が改善につながったかどうかを推測する必要はもうありません。
「私たちのアプリケーションがビジネスにとって最も重要な質問に正しく答え、幻覚を見ないことを私たちは知っています」と自信を持って述べることができれば、本番運用のためのアプリケーションの準備状況についてビジネス関係者との認識を合わせることはより簡単になります。
評価主導のワークフローを示すステップ バイ ステップのチュートリアルについては、「 前提条件: 要件の収集」から始めてください。