Desenvolvimento orientado por avaliação fluxo de trabalho

Esta seção o orienta no fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento orientado por avaliação. Esse fluxo de trabalho é baseado nas práticas recomendadas pela equipe da Mosaic Research para criar e avaliar aplicativos RAG de alta qualidade. A Databricks recomenda o seguinte fluxo de trabalho orientado por avaliação:

  1. Defina os requisitos.

  2. Colete feedback das partes interessadas sobre uma prova rápida de conceito (POC).

  3. Avalie a qualidade do POC.

  4. Diagnostique e corrija problemas de qualidade de forma iterativa.

  5. implantado para produção.

  6. Monitor em produção.

Desenvolvimento orientado por avaliação fluxo de trabalho

Existem dois conceitos principais no desenvolvimento orientado por avaliação:

  • métricas: Definindo o que significa alta qualidade.

    Da mesma forma que você define metas de negócios a cada ano, você precisa definir o que significa alta qualidade para seu caso de uso. O Mosaic AI Agent Evaluation fornece um conjunto sugerido de métricas a serem usadas, sendo que a mais importante delas é a precisão ou correção da resposta - o aplicativo RAG está fornecendo a resposta certa?

  • Conjunto de avaliação: Medir objetivamente as métricas.

    Para medir objetivamente a qualidade, você precisa de um conjunto de avaliação que contenha perguntas com respostas em boas condições validadas por humanos. Este guia orienta o senhor no processo de desenvolvimento e refinamento iterativo desse conjunto de avaliação.

A ancoragem em métricas e em um conjunto de avaliação oferece os seguintes benefícios:

  • Você pode refinar de forma iterativa e segura a qualidade do seu aplicativo durante o desenvolvimento, sem precisar adivinhar se uma mudança resultou em uma melhoria.

  • Chegar a um alinhamento com as partes interessadas da empresa sobre a prontidão do aplicativo para produção se torna mais simples quando você pode afirmar com segurança: “sabemos que nosso aplicativo responde corretamente às perguntas mais críticas de nossa empresa e não tem alucinações”.

Para obter um passo a passo que ilustra o fluxo de trabalho orientado por avaliação, comece com Prerequisite: Reunir requisitos.