Pular para o conteúdo principal

Feedback humano

O feedback humano é essencial para criar aplicativos GenAI de alta qualidade que atendam às expectativas do usuário. O MLflow fornece ferramentas e um modelo de dados para coletar, gerenciar e utilizar feedback de desenvolvedores, usuários finais e especialistas na área.

Visão geral do modelo de dados

O MLflow armazena o feedback humano como Avaliações, anexadas a Traços MLflow individuais. Isso vincula o feedback diretamente a uma consulta específica do usuário e às saídas e à lógica do seu aplicativo GenAI.

Existem 2 tipos de avaliação:

  1. Feedback: avalia as saídas reais ou as etapas intermediárias do seu aplicativo. Por exemplo, ele responde a perguntas como: " A resposta do agente foi boa? ". O feedback avalia o que o aplicativo produziu, como avaliações ou comentários. O feedback avalia o que foi gerado pelo aplicativo e fornece percepções qualitativas.
  2. Expectativa: define o resultado desejado ou correto (verdade básica) que seu aplicativo deveria ter produzido . Por exemplo, isso poderia ser " A resposta ideal " para a consulta de um usuário. Para uma determinada entrada, a expectativa é sempre a mesma. As expectativas definem o que o aplicativo deve gerar e são úteis para criar um conjunto de dados de avaliação.

As avaliações podem ser anexadas a todo o Trace ou a um período específico dentro do Trace.

Para obter mais detalhes sobre o modelo de dados, consulte Modelo de dados de rastreamento.

Como coletar feedback

O MLflow auxilia na coleta de feedback de três fontes principais. Cada fonte é personalizada para um caso de uso diferente no ciclo de vida do seu aplicativo GenAI. Embora o feedback venha de pessoas diferentes, o modelo de dados subjacente é o mesmo para todas as pessoas.

Feedback do desenvolvedor

Durante o desenvolvimento, é possível anotar traços diretamente. Isso é útil para rastrear notas de qualidade à medida que você cria e marca exemplos específicos para testes futuros de referência ou de regressão. Para saber como anotar feedback durante o desenvolvimento, consulte rótulo durante o desenvolvimento.

Feedback e expectativas de especialistas do domínio

Envolva especialistas no assunto para fornecer feedback estruturado sobre os resultados e as expectativas do seu aplicativo sobre as entradas do seu aplicativo. Suas avaliações detalhadas ajudam a definir como são as respostas corretas e de alta qualidade para o seu caso específico e são inestimáveis para alinhar os avaliadores de LLM com os requisitos comerciais mais complexos. Para saber como coletar feedback de especialistas em domínios, consulte Coletar feedback de especialistas em domínios.

Feedback do usuário final

Na produção, capture o feedback dos usuários que interagem com seu aplicativo ativo. Isso fornece percepções cruciais sobre o desempenho no mundo real, auxiliando a identificar consultas problemáticas que precisam ser corrigidas e destacando interações bem-sucedidas a serem preservadas em atualizações futuras. Para saber como coletar feedback do usuário final, consulte Coletando feedback do usuário final.

Próximos passos

Continue sua jornada com estas ações recomendadas e o tutorial.

Guia de referência