Avaliar desempenho: métricas que importam

Este artigo aborda a medição do desempenho de uma aplicação RAG para a qualidade de recuperação, resposta e desempenho do sistema.

Recuperação, resposta e desempenho

Com um conjunto de avaliação, você pode medir o desempenho do seu aplicativo RAG em várias dimensões diferentes, incluindo:

**Qualidade de recuperação:** As métricas de recuperação avaliam o sucesso com que sua aplicação RAG recupera dados de suporte relevantes. Precisão e recall são duas métricas de recuperação key.
Qualidade da resposta: As métricas de qualidade da resposta avaliam o quão bem o aplicativo RAG responde à solicitação de um usuário. As métricas de resposta podem medir, por exemplo, se a resposta resultante é precisa de acordo com a verdade fundamental, o quão bem fundamentada a resposta foi dado o contexto recuperado (por exemplo, o LLM alucinou?), ou o quão segura a resposta foi (em outras palavras, sem toxicidade).
Desempenho do sistema (custo e latência): Métricas capturam o custo geral e o desempenho de aplicações RAG. Latência geral e consumo de tokens são exemplos de métricas de desempenho de cadeia.

É muito importante coletar as métricas de resposta e de recuperação. Uma aplicação RAG pode responder mal apesar de recuperar o contexto correto; também pode fornecer boas respostas com base em recuperações falhas. Somente ao medir ambos os componentes é possível diagnosticar e resolver problemas na aplicação com precisão.

Abordagens para medir o desempenho

Existem duas abordagens key para medir o desempenho nessas métricas:

Medição determinística: As métricas de custo e latência podem ser computadas deterministicamente com base nas saídas do aplicativo. Se o seu conjunto de avaliação incluir uma lista de documentos que contêm a resposta para uma pergunta, um subconjunto das métricas de recuperação também poderá ser computado deterministicamente.
Medição baseada em juiz LLM: Nesta abordagem, um LLM separado atua como um juiz para avaliar a qualidade da recuperação e das respostas do aplicativo RAG. Alguns juízes LLM, como o de exatidão da resposta, comparam a verdade fundamental com rótulo humano vs. as saídas do aplicativo. Outros juízes LLM, como o de fundamentação, não exigem verdade fundamental com rótulo humano para avaliar as saídas de seus aplicativos.

importante

Para que um juiz do LLM seja eficaz, ele deve ser ajustado para entender o caso de uso. Fazer isso exige atenção cuidadosa para entender onde o juiz funciona e onde não funciona bem, e então ajustar o juiz para melhorá-lo para os casos de falha.

A Agent Evaluation oferece uma implementação pronta para uso, utilizando modelos de juiz LLM hospedados, para cada métrica discutida nesta página. A documentação da Agent Evaluation aborda os detalhes de como essas métricas e juízes são implementados e oferece recursos para ajustar os juízes com seus dados para aumentar a precisão deles.

Visão geral das métricas

Abaixo está um resumo das métricas que a Databricks recomenda para medir a qualidade, o custo e a latência da sua aplicação RAG. Essas métricas são implementadas na Agent Evaluation.

Dimensão	Nome da métrica	Pergunta	Medido por	É necessária uma verdade fundamental?
Recuperação	relevância do bloco/precisão	Qual % dos trechos recuperados são relevantes para a solicitação?	Juiz do LLM	Não
Recuperação	recuperação de documentos	Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados?	Determinístico	Sim
Recuperação	suficiência de contexto	Os trechos recuperados são suficientes para produzir a resposta esperada?	Juiz do LLM	Sim
Resposta	correção	No geral, o agente gerou uma resposta correta?	Juiz do LLM	Sim
Resposta	relevância_para_a_consulta	A resposta é relevante para a solicitação?	Juiz do LLM	Não
Resposta	fundamentação	A resposta é uma alucinação ou está fundamentada no contexto?	Juiz do LLM	Não
Resposta	segurança	Há conteúdo prejudicial na resposta?	Juiz do LLM	Não
Custo	contagem_total_de_tokens, contagem_total_de_tokens_de_entrada, contagem_total_de_tokens_de_saída	Qual é a contagem total de tokens para gerações de LLM?	Determinístico	Não
Latência	latency_seconds	Qual é a latência da execução do aplicativo?	Determinístico	Não

Dimensão	Nome da métrica	Pergunta	Medido por	É necessária uma verdade fundamental?
Recuperação	relevância do bloco/precisão	Qual % dos trechos recuperados são relevantes para a solicitação?	Juiz do LLM	Não
Recuperação	recuperação de documentos	Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados?	Determinístico	Sim
Recuperação	suficiência de contexto	Os trechos recuperados são suficientes para produzir a resposta esperada?	Juiz do LLM	Sim
Resposta	correção	No geral, o agente gerou uma resposta correta?	Juiz do LLM	Sim
Resposta	relevância_para_a_consulta	A resposta é relevante para a solicitação?	Juiz do LLM	Não
Resposta	fundamentação	A resposta é uma alucinação ou está fundamentada no contexto?	Juiz do LLM	Não
Resposta	segurança	Há conteúdo prejudicial na resposta?	Juiz do LLM	Não
Custo	contagem_total_de_tokens, contagem_total_de_tokens_de_entrada, contagem_total_de_tokens_de_saída	Qual é a contagem total de tokens para gerações de LLM?	Determinístico	Não
Latência	latency_seconds	Qual é a latência da execução do aplicativo?	Determinístico	Não

Como as métricas de recuperação funcionam

As métricas de recuperação ajudam a entender se o seu recuperador está entregando resultados relevantes. As métricas de recuperação são baseadas em precisão e recall.

Nome da métrica	Pergunta respondida	Detalhes
Precisão	Qual % dos trechos recuperados são relevantes para a solicitação?	Precisão é a proporção de documentos recuperados que são de fato relevantes para a solicitação do usuário. Um juiz LLM pode ser usado para avaliar a relevância de cada fragmento recuperado para a solicitação do usuário.
Recall	Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados?	Recall é a proporção dos documentos da verdade fundamental que são representados nos trechos recuperados. Esta é uma medida da completude dos resultados.

Nome da métrica	Pergunta respondida	Detalhes
Precisão	Qual % dos trechos recuperados são relevantes para a solicitação?	Precisão é a proporção de documentos recuperados que são de fato relevantes para a solicitação do usuário. Um juiz LLM pode ser usado para avaliar a relevância de cada fragmento recuperado para a solicitação do usuário.
Recall	Qual % dos documentos de verdade fundamental estão representados nos trechos recuperados?	Recall é a proporção dos documentos da verdade fundamental que são representados nos trechos recuperados. Esta é uma medida da completude dos resultados.

Precisão e recall

Abaixo está um breve guia sobre precisão e recall adaptados do excelente artigo da Wikipédia.

Fórmula de precisão

A precisão mede “Dos trechos que recuperei, qual a porcentagem desses itens é realmente relevante para a consulta do meu usuário?” O cálculo da precisão *não* exige o conhecimento de *todos* os itens relevantes.

Fórmula para calcular a precisão.

Fórmula de recall

O recall mede “De TODOS os documentos que sei serem relevantes para a consulta do meu usuário, de quantos % eu recuperei um fragmento?” O cálculo do recall requer que a verdade fundamental contenha todos os itens relevantes. Itens podem ser um documento ou um fragmento de um documento.

Fórmula para calcular o recall.

No exemplo abaixo, dois dos três resultados recuperados eram relevantes para a consulta do usuário, então a precisão foi de 0,66 (2/3). Os documentos recuperados incluíam dois de um total de quatro documentos relevantes, então o recall foi de 0,5 (2/4).

Diagrama mostrando medição de precisão e recall.

Recuperação, resposta e desempenho​

Abordagens para medir o desempenho​

Visão geral das métricas​

Como as métricas de recuperação funcionam​

Precisão e recall​

Fórmula de precisão​

Fórmula de recall​