Desenvolvimento orientado por avaliação fluxo de trabalho

Esta seção o orienta no fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento orientado por avaliação. Esse fluxo de trabalho é baseado nas práticas recomendadas pela equipe da Mosaic Research para criar e avaliar aplicativos RAG de alta qualidade. A Databricks recomenda o seguinte fluxo de trabalho orientado por avaliação:

  1. Definir os requisitos.

  2. Coletar feedback das partes interessadas sobre uma rápida prova de conceito (POC).

  3. Avaliar a qualidade do POC.

  4. Diagnosticar e corrigir problemas de qualidade de forma iterativa.

  5. implantado para produção.

  6. Monitor em produção.

Desenvolvimento orientado por avaliação fluxo de trabalho

Há dois conceitos fundamentais no desenvolvimento orientado por avaliação:

  • métricas: Definindo o que significa alta qualidade.

    Da mesma forma que o senhor estabelece metas comerciais a cada ano, é preciso definir o que significa alta qualidade para o seu caso de uso. O Mosaic AI Agent Evaluation fornece um conjunto sugerido de métricas a serem usadas, sendo que a mais importante delas é a precisão ou correção da resposta - o aplicativo RAG está fornecendo a resposta certa?

  • Conjunto de avaliação: Medir objetivamente as métricas.

    Para medir objetivamente a qualidade, o senhor precisa de um conjunto de avaliação que contenha perguntas com boas respostas conhecidas e validadas por humanos. Este guia orienta o senhor no processo de desenvolvimento e refinamento iterativo desse conjunto de avaliação.

A ancoragem em métricas e em um conjunto de avaliação oferece os seguintes benefícios:

  • O senhor pode refinar a qualidade do seu aplicativo de forma iterativa e confiante durante o desenvolvimento - não é mais necessário adivinhar se uma alteração resultou em uma melhoria.

  • Obter o alinhamento com as partes interessadas do negócio sobre a prontidão do aplicativo para produção torna-se mais simples quando o senhor pode afirmar com confiança: "sabemos que nosso aplicativo responde corretamente às perguntas mais importantes para o nosso negócio e não tem alucinações".

Para obter um passo a passo que ilustra o fluxo de trabalho orientado por avaliação, comece com Prerequisite: Reunir requisitos.