Desenvolvimento orientado por avaliação fluxo de trabalho
Esta seção o orienta no fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento orientado por avaliação. Esse fluxo de trabalho é baseado nas práticas recomendadas pela equipe da Mosaic Research para criar e avaliar aplicativos RAG de alta qualidade. A Databricks recomenda o seguinte fluxo de trabalho orientado por avaliação:
Definir os requisitos.
Coletar feedback das partes interessadas sobre uma rápida prova de conceito (POC).
Avaliar a qualidade do POC.
Diagnosticar e corrigir problemas de qualidade de forma iterativa.
implantado para produção.
Monitor em produção.
![Desenvolvimento orientado por avaliação fluxo de trabalho](../_images/workflow.png)
Há dois conceitos fundamentais no desenvolvimento orientado por avaliação:
métricas: Definindo o que significa alta qualidade.
Da mesma forma que o senhor estabelece metas comerciais a cada ano, é preciso definir o que significa alta qualidade para o seu caso de uso. O Mosaic AI Agent Evaluation fornece um conjunto sugerido de métricas a serem usadas, sendo que a mais importante delas é a precisão ou correção da resposta - o aplicativo RAG está fornecendo a resposta certa?
Conjunto de avaliação: Medir objetivamente as métricas.
Para medir objetivamente a qualidade, o senhor precisa de um conjunto de avaliação que contenha perguntas com boas respostas conhecidas e validadas por humanos. Este guia orienta o senhor no processo de desenvolvimento e refinamento iterativo desse conjunto de avaliação.
A ancoragem em métricas e em um conjunto de avaliação oferece os seguintes benefícios:
O senhor pode refinar a qualidade do seu aplicativo de forma iterativa e confiante durante o desenvolvimento - não é mais necessário adivinhar se uma alteração resultou em uma melhoria.
Obter o alinhamento com as partes interessadas do negócio sobre a prontidão do aplicativo para produção torna-se mais simples quando o senhor pode afirmar com confiança: "sabemos que nosso aplicativo responde corretamente às perguntas mais importantes para o nosso negócio e não tem alucinações".
Para obter um passo a passo que ilustra o fluxo de trabalho orientado por avaliação, comece com Prerequisite: Reunir requisitos.