Desenvolvimento orientado por avaliação fluxo de trabalho
Esta seção o orienta no fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento orientado por avaliação. Esse fluxo de trabalho é baseado nas práticas recomendadas pela equipe da Mosaic Research para criar e avaliar aplicativos RAG de alta qualidade. A Databricks recomenda o seguinte fluxo de trabalho orientado por avaliação:
Defina os requisitos.
Colete feedback das partes interessadas sobre uma prova rápida de conceito (POC).
Avalie a qualidade do POC.
Diagnostique e corrija problemas de qualidade de forma iterativa.
implantado para produção.
Monitor em produção.
Existem dois conceitos principais no desenvolvimento orientado por avaliação:
métricas: Definindo o que significa alta qualidade.
Da mesma forma que você define metas de negócios a cada ano, você precisa definir o que significa alta qualidade para seu caso de uso. O Mosaic AI Agent Evaluation fornece um conjunto sugerido de métricas a serem usadas, sendo que a mais importante delas é a precisão ou correção da resposta - o aplicativo RAG está fornecendo a resposta certa?
Conjunto de avaliação: Medir objetivamente as métricas.
Para medir objetivamente a qualidade, você precisa de um conjunto de avaliação que contenha perguntas com respostas em boas condições validadas por humanos. Este guia orienta o senhor no processo de desenvolvimento e refinamento iterativo desse conjunto de avaliação.
A ancoragem em métricas e em um conjunto de avaliação oferece os seguintes benefícios:
Você pode refinar de forma iterativa e segura a qualidade do seu aplicativo durante o desenvolvimento, sem precisar adivinhar se uma mudança resultou em uma melhoria.
Chegar a um alinhamento com as partes interessadas da empresa sobre a prontidão do aplicativo para produção se torna mais simples quando você pode afirmar com segurança: “sabemos que nosso aplicativo responde corretamente às perguntas mais críticas de nossa empresa e não tem alucinações”.
Para obter um passo a passo que ilustra o fluxo de trabalho orientado por avaliação, comece com Prerequisite: Reunir requisitos.