Feedback humano
O feedback humano é essencial para criar aplicativos GenAI de alta qualidade que atendam às expectativas do usuário. O MLflow fornece ferramentas e um modelo de dados para coletar, gerenciar e utilizar feedback de desenvolvedores, usuários finais e especialistas na área.
Visão geral do modelo de dados
O MLflow armazena o feedback humano como Avaliações, anexadas a Traços MLflow individuais. Isso vincula o feedback diretamente a uma consulta específica do usuário e às saídas e à lógica do seu aplicativo GenAI.
Existem 2 tipos de avaliação:
- Feedback: avalia as saídas reais ou as etapas intermediárias do seu aplicativo. Por exemplo, ele responde a perguntas como: " A resposta do agente foi boa? ". O feedback avalia o que o aplicativo produziu, como avaliações ou comentários. O feedback avalia o que foi gerado pelo aplicativo e fornece percepções qualitativas.
- Expectativa: define o resultado desejado ou correto (verdade básica) que seu aplicativo deveria ter produzido . Por exemplo, isso poderia ser " A resposta ideal " para a consulta de um usuário. Para uma determinada entrada, a expectativa é sempre a mesma. As expectativas definem o que o aplicativo deve gerar e são úteis para criar um conjunto de dados de avaliação.
As avaliações podem ser anexadas a todo o Trace ou a um período específico dentro do Trace.
Para obter mais detalhes sobre o modelo de dados, consulte Modelo de dados de rastreamento.
Como coletar feedback
O MLflow auxilia na coleta de feedback de três fontes principais. Cada fonte é personalizada para um caso de uso diferente no ciclo de vida do seu aplicativo GenAI. Embora o feedback venha de pessoas diferentes, o modelo de dados subjacente é o mesmo para todas as pessoas.
Feedback do desenvolvedor
Durante o desenvolvimento, você pode adicionar rastros diretamente. Isso é útil para acompanhar as anotações de qualidade durante o desenvolvimento e marcar exemplos específicos para referência futura ou testes de regressão.
Para aprender como anotar o feedback durante o desenvolvimento, consulte rotular durante o desenvolvimento.
Feedback de especialistas da área
Contrate especialistas no assunto para fornecer feedback estruturado sobre os resultados do seu aplicativo e definir as expectativas para as respostas corretas. Suas avaliações detalhadas ajudam a definir o que são respostas de alta qualidade para o seu caso específico e são inestimáveis para alinhar os avaliadores do LLM com as necessidades comerciais específicas.

O MLflow oferece duas abordagens para coletar feedback de especialistas da área usando o aplicativo de revisão:
Testes interativos com interface de chat : especialistas interagem com seu aplicativo implantado em tempo real por meio de uma interface de chat, fornecendo feedback imediato sobre as respostas enquanto testam os fluxos de conversação. Essa abordagem é ideal para "verificações de impressão" e validação qualitativa antes da implementação em produção. Para saber mais, consulte Testar uma versão do aplicativo com a interface de bate-papo.
Rotular rastros existentes : Especialistas revisam e rotulam sistematicamente os rastros que já foram capturados pelo seu aplicativo. Essa abordagem é ideal para sessões de avaliação estruturadas, nas quais especialistas avaliam exemplos específicos e definem as expectativas de referência. Para saber mais, consulte rótulo de rastros existentes.
Feedback do usuário final
Em produção, colete feedback dos usuários que interagem com seu aplicativo em funcionamento. Isso proporciona uma compreensão crucial do desempenho no mundo real, ajudando você a identificar consultas problemáticas que precisam ser corrigidas e a destacar interações bem-sucedidas para serem preservadas em atualizações futuras. MLflow fornece ferramentas para capturar, armazenar e analisar o feedback diretamente dos usuários de seus aplicativos implantados.
Para aprender como coletar feedback do usuário final, consulte o guia de coleta de feedback do usuário final na seção de rastreamento.
Próximos passos
- Comece a coletar feedback humano - siga este tutorial completo que demonstra maneiras comuns de coletar feedback humano.
- rótulo durante o desenvolvimento - começar a anotar traços para rastrear a qualidade durante o desenvolvimento.
- Teste uma versão do aplicativo com a interface de bate-papo - Teste seu aplicativo interativamente usando uma interface de bate-papo ao vivo.
- Etiquetar vestígios existentes - Estabelecer processos sistemáticos de revisão por especialistas.