Avaliar desempenho: métricas que importam
Este artigo aborda a medição do desempenho de uma aplicação RAG para a qualidade de recuperação, resposta e desempenho do sistema.
Recuperação, resposta e desempenho
Com um conjunto de avaliação, você pode medir o desempenho do seu aplicativo RAG em várias dimensões diferentes, incluindo:
- **Qualidade de recuperação:** As métricas de recuperação avaliam o sucesso com que sua aplicação RAG recupera dados de suporte relevantes. Precisão e recall são duas métricas de recuperação key.
- Qualidade da resposta: As métricas de qualidade da resposta avaliam o quão bem o aplicativo RAG responde à solicitação de um usuário. As métricas de resposta podem medir, por exemplo, se a resposta resultante é precisa de acordo com a verdade fundamental, o quão bem fundamentada a resposta foi dado o contexto recuperado (por exemplo, o LLM alucinou?), ou o quão segura a resposta foi (em outras palavras, sem toxicidade).
- Desempenho do sistema (custo e latência): Métricas capturam o custo geral e o desempenho de aplicações RAG. Latência geral e consumo de tokens são exemplos de métricas de desempenho de cadeia.
É muito importante coletar as métricas de resposta e de recuperação. Uma aplicação RAG pode responder mal apesar de recuperar o contexto correto; também pode fornecer boas respostas com base em recuperações falhas. Somente ao medir ambos os componentes é possível diagnosticar e resolver problemas na aplicação com precisão.
Abordagens para medir o desempenho
Existem duas abordagens key para medir o desempenho nessas métricas:
- Medição determinística: As métricas de custo e latência podem ser computadas deterministicamente com base nas saídas do aplicativo. Se o seu conjunto de avaliação incluir uma lista de documentos que contêm a resposta para uma pergunta, um subconjunto das métricas de recuperação também poderá ser computado deterministicamente.
- Medição baseada em juiz LLM: Nesta abordagem, um LLM separado atua como um juiz para avaliar a qualidade da recuperação e das respostas do aplicativo RAG. Alguns juízes LLM, como o de exatidão da resposta, comparam a verdade fundamental com rótulo humano vs. as saídas do aplicativo. Outros juízes LLM, como o de fundamentação, não exigem verdade fundamental com rótulo humano para avaliar as saídas de seus aplicativos.
Para que um juiz do LLM seja eficaz, ele deve ser ajustado para entender o caso de uso. Fazer isso exige atenção cuidadosa para entender onde o juiz funciona e onde não funciona bem, e então ajustar o juiz para melhorá-lo para os casos de falha.
A Agent Evaluation oferece uma implementação pronta para uso, utilizando modelos de juiz LLM hospedados, para cada métrica discutida nesta página. A documentação da Agent Evaluation aborda os detalhes de como essas métricas e juízes são implementados e oferece recursos para ajustar os juízes com seus dados para aumentar a precisão deles.
Visão geral das métricas
Abaixo está um resumo das métricas que a Databricks recomenda para medir a qualidade, o custo e a latência da sua aplicação RAG. Essas métricas são implementadas na Agent Evaluation.
Dimensão | Nome da métrica | Pergunta | Medido por | É necessária uma verdade fundamental? |
|---|---|---|---|---|
Recuperação | relevância do bloco/precisão | Qual % dos trechos recuperados são relevantes para a solicitação? | Juiz do LLM | Não |
Recuperação | recuperação de documentos | Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados? | Determinístico | Sim |
Recuperação | suficiência de contexto | Os trechos recuperados são suficientes para produzir a resposta esperada? | Juiz do LLM | Sim |
Resposta | correção | Juiz do LLM | Sim | |
Resposta | relevância_para_a_consulta | Juiz do LLM | Não | |
Resposta | fundamentação | A resposta é uma alucinação ou está fundamentada no contexto? | Juiz do LLM | Não |
Resposta | segurança | Juiz do LLM | Não | |
Custo | contagem_total_de_tokens, contagem_total_de_tokens_de_entrada, contagem_total_de_tokens_de_saída | Determinístico | Não | |
Latência | latency_seconds | Determinístico | Não |
Como as métricas de recuperação funcionam
As métricas de recuperação ajudam a entender se o seu recuperador está entregando resultados relevantes. As métricas de recuperação são baseadas em precisão e recall.
Nome da métrica | Pergunta respondida | Detalhes |
|---|---|---|
Precisão | Qual % dos trechos recuperados são relevantes para a solicitação? | Precisão é a proporção de documentos recuperados que são de fato relevantes para a solicitação do usuário. Um juiz LLM pode ser usado para avaliar a relevância de cada fragmento recuperado para a solicitação do usuário. |
Recall | Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados? | Recall é a proporção dos documentos da verdade fundamental que são representados nos trechos recuperados. Esta é uma medida da completude dos resultados. |
Precisão e recall
Abaixo está um breve guia sobre precisão e recall adaptados do excelente artigo da Wikipédia.
Fórmula de precisão
A precisão mede “Dos trechos que recuperei, qual a porcentagem desses itens é realmente relevante para a consulta do meu usuário?” O cálculo da precisão *não* exige o conhecimento de *todos* os itens relevantes.

Fórmula de recall
O recall mede “De TODOS os documentos que sei serem relevantes para a consulta do meu usuário, de quantos % eu recuperei um fragmento?” O cálculo do recall requer que a verdade fundamental contenha todos os itens relevantes. Itens podem ser um documento ou um fragmento de um documento.

No exemplo abaixo, dois dos três resultados recuperados eram relevantes para a consulta do usuário, então a precisão foi de 0,66 (2/3). Os documentos recuperados incluíam dois de um total de quatro documentos relevantes, então o recall foi de 0,5 (2/4).
