Pular para o conteúdo principal

Avaliar desempenho: métricas que importam

Este artigo aborda a medição do desempenho de uma aplicação RAG para a qualidade de recuperação, resposta e desempenho do sistema.

Recuperação, resposta e desempenho

Com um conjunto de avaliação, você pode medir o desempenho do seu aplicativo RAG em várias dimensões diferentes, incluindo:

  • **Qualidade de recuperação:** As métricas de recuperação avaliam o sucesso com que sua aplicação RAG recupera dados de suporte relevantes. Precisão e recall são duas métricas de recuperação key.
  • Qualidade da resposta: As métricas de qualidade da resposta avaliam o quão bem o aplicativo RAG responde à solicitação de um usuário. As métricas de resposta podem medir, por exemplo, se a resposta resultante é precisa de acordo com a verdade fundamental, o quão bem fundamentada a resposta foi dado o contexto recuperado (por exemplo, o LLM alucinou?), ou o quão segura a resposta foi (em outras palavras, sem toxicidade).
  • Desempenho do sistema (custo e latência): Métricas capturam o custo geral e o desempenho de aplicações RAG. Latência geral e consumo de tokens são exemplos de métricas de desempenho de cadeia.

É muito importante coletar as métricas de resposta e de recuperação. Uma aplicação RAG pode responder mal apesar de recuperar o contexto correto; também pode fornecer boas respostas com base em recuperações falhas. Somente ao medir ambos os componentes é possível diagnosticar e resolver problemas na aplicação com precisão.

Abordagens para medir o desempenho

Existem duas abordagens key para medir o desempenho nessas métricas:

  • Medição determinística: As métricas de custo e latência podem ser computadas deterministicamente com base nas saídas do aplicativo. Se o seu conjunto de avaliação incluir uma lista de documentos que contêm a resposta para uma pergunta, um subconjunto das métricas de recuperação também poderá ser computado deterministicamente.
  • Medição baseada em juiz LLM: Nesta abordagem, um LLM separado atua como um juiz para avaliar a qualidade da recuperação e das respostas do aplicativo RAG. Alguns juízes LLM, como o de exatidão da resposta, comparam a verdade fundamental com rótulo humano vs. as saídas do aplicativo. Outros juízes LLM, como o de fundamentação, não exigem verdade fundamental com rótulo humano para avaliar as saídas de seus aplicativos.
importante

Para que um juiz do LLM seja eficaz, ele deve ser ajustado para entender o caso de uso. Fazer isso exige atenção cuidadosa para entender onde o juiz funciona e onde não funciona bem, e então ajustar o juiz para melhorá-lo para os casos de falha.

A Agent Evaluation oferece uma implementação pronta para uso, utilizando modelos de juiz LLM hospedados, para cada métrica discutida nesta página. A documentação da Agent Evaluation aborda os detalhes de como essas métricas e juízes são implementados e oferece recursos para ajustar os juízes com seus dados para aumentar a precisão deles.

Visão geral das métricas

Abaixo está um resumo das métricas que a Databricks recomenda para medir a qualidade, o custo e a latência da sua aplicação RAG. Essas métricas são implementadas na Agent Evaluation.

Dimensão

Nome da métrica

Pergunta

Medido por

É necessária uma verdade fundamental?

Recuperação

relevância do bloco/precisão

Qual % dos trechos recuperados são relevantes para a solicitação?

Juiz do LLM

Não

Recuperação

recuperação de documentos

Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados?

Determinístico

Sim

Recuperação

suficiência de contexto

Os trechos recuperados são suficientes para produzir a resposta esperada?

Juiz do LLM

Sim

Resposta

correção

No geral, o agente gerou uma resposta correta?

Juiz do LLM

Sim

Resposta

relevância_para_a_consulta

A resposta é relevante para a solicitação?

Juiz do LLM

Não

Resposta

fundamentação

A resposta é uma alucinação ou está fundamentada no contexto?

Juiz do LLM

Não

Resposta

segurança

Há conteúdo prejudicial na resposta?

Juiz do LLM

Não

Custo

contagem_total_de_tokens, contagem_total_de_tokens_de_entrada, contagem_total_de_tokens_de_saída

Qual é a contagem total de tokens para gerações de LLM?

Determinístico

Não

Latência

latency_seconds

Qual é a latência da execução do aplicativo?

Determinístico

Não

Como as métricas de recuperação funcionam

As métricas de recuperação ajudam a entender se o seu recuperador está entregando resultados relevantes. As métricas de recuperação são baseadas em precisão e recall.

Nome da métrica

Pergunta respondida

Detalhes

Precisão

Qual % dos trechos recuperados são relevantes para a solicitação?

Precisão é a proporção de documentos recuperados que são de fato relevantes para a solicitação do usuário. Um juiz LLM pode ser usado para avaliar a relevância de cada fragmento recuperado para a solicitação do usuário.

Recall

Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados?

Recall é a proporção dos documentos da verdade fundamental que são representados nos trechos recuperados. Esta é uma medida da completude dos resultados.

Precisão e recall

Abaixo está um breve guia sobre precisão e recall adaptados do excelente artigo da Wikipédia.

Fórmula de precisão

A precisão mede “Dos trechos que recuperei, qual a porcentagem desses itens é realmente relevante para a consulta do meu usuário?” O cálculo da precisão *não* exige o conhecimento de *todos* os itens relevantes.

Fórmula para calcular a precisão.

Fórmula de recall

O recall mede “De TODOS os documentos que sei serem relevantes para a consulta do meu usuário, de quantos % eu recuperei um fragmento?” O cálculo do recall requer que a verdade fundamental contenha todos os itens relevantes. Itens podem ser um documento ou um fragmento de um documento.

Fórmula para calcular o recall.

No exemplo abaixo, dois dos três resultados recuperados eram relevantes para a consulta do usuário, então a precisão foi de 0,66 (2/3). Os documentos recuperados incluíam dois de um total de quatro documentos relevantes, então o recall foi de 0,5 (2/4).

Diagrama mostrando medição de precisão e recall.