Avaliar a qualidade da recuperação da pesquisa vetorial
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Mosaic AI Vector Search oferece uma avaliação integrada da qualidade da recuperação, que mede e compara a relevância de diferentes estratégias de busca em seus dados. Você pode gerar automaticamente consultas de avaliação a partir de seus documentos, executar múltiplas estratégias de recuperação e gerar um relatório detalhado.
Requisitos
Um índice de busca vetorial Delta Sync. Consulte Criar ponto de extremidade e índices de pesquisa vetorial.
Permissões
O painel de avaliação de tarefas e resultados herda as permissões Unity Catalog do índice de pesquisa vetorial. Qualquer usuário com acesso de consulta ao índice pode iniciar uma execução de avaliação e view o painel de resultados. O usuário que inicia a execução da avaliação é o proprietário da tarefa, não o proprietário do índice.
Como funciona a avaliação da qualidade da recuperação de pesquisa vetorial
A avaliação executa um pipeline de quatro etapas com base nos seus dados:
- Gerar consultas : O sistema extrai amostras de documentos da sua tabela de origem e usa um modelo de lógica de busca (LLM) para gerar consultas de pesquisa realistas. Ele gera uma combinação de consultas em linguagem natural e consultas por palavras-chave.
- Pesquisa em várias estratégias : Cada consulta gerada é executada em seu índice usando múltiplas estratégias de recuperação, incluindo redes neurais artificiais (RNA), híbrida e de texto completo. Cada estratégia também é avaliada com e sem o reclassificador. Essa abordagem compara estratégias lado a lado no mesmo conjunto de consultas. Para obter mais informações sobre cada estratégia de recuperação, consulte Algoritmos de recuperação.
- Relevância da pontuação : Um avaliador do LLM avalia cada consulta e par de documentos recuperados em uma escala de relevância de 4 pontos.
- Calcular métricas e analisar : O sistema calcula métricas de qualidade de recuperação com intervalos de confiança. Os resultados são salvos para que você possa view los posteriormente ou compará-los entre diferentes execuções de avaliação.
iniciar uma execução de avaliação de qualidade de recuperação
Para iniciar o processo, clique em Avaliar a qualidade da pesquisa na página do índice de pesquisa vetorial. Nenhuma configuração é necessária, pois os valores default são preenchidos previamente com base nos metadados do seu índice.

Quando a execução for concluída, clique em " Ver painel" para exibir o painel de resultados. Para uma visão geral do painel de controle, consulte Painel de resultados.

Para iniciar uma nova avaliação a qualquer momento, clique em iniciar nova avaliação .
Painel de resultados
O painel de controle apresenta os resultados da execução da avaliação. Utilize o menu suspenso Selecionar execução para escolher a execução que deseja exibir.

Na parte superior do painel, encontram-se 3 indicadores de resumo: a melhor pontuação DCG@10 em todos os tipos de consulta, o tipo de consulta recomendado que a alcançou e o número de consultas avaliadas.
Veja por que a Databricks recomenda o DCG@10.
Abaixo dos indicadores de resumo, o painel exibe um gráfico de barras que compara as pontuações DCG@10 para cada tipo de consulta, com e sem o uso do reclassificador. Ao lado do gráfico de barras, encontram-se duas tabelas que mostram o DCG@10, o NDCG@10 e a relevância média para cada tipo de consulta, com e sem o reclassificador.
Em seguida, há um gráfico de linhas que mostra como a relevância média muda ao longo das posições dos resultados para cada tipo de consulta.
O painel também apresenta as consultas com melhor e pior desempenho por pontuação média de relevância, uma tabela comparando o desempenho da consulta base e da reclassificadora para cada tipo de consulta, uma tabela de consultas com falha (consultas em que o primeiro resultado teve pontuação 0 (irrelevante)) e um gráfico de linhas que mostra uma métrica selecionada ao longo da execução da avaliação ao longo do tempo, por métrica de consulta.
Pontuação de relevância
A avaliação da qualidade da recuperação utiliza um mestre em direito (LLM) como avaliador para pontuar cada par de consulta e documento recuperado em uma escala de relevância graduada de 4 pontos:
Pontuação | Etiqueta | Descrição | Exemplo |
|---|---|---|---|
3 | Altamente relevante | O documento responde diretamente à pergunta ou fornece exatamente a informação solicitada. | Pergunta: "Como calculo a área de um retângulo?" O documento explica a fórmula comprimento × largura. |
2 | Relevante | O documento é relevante e fornece informações úteis, mas pode não responder completamente à pergunta. | Pergunta: "Onde fica o número de roteamento em um cheque?" O documento diz "impresso na parte inferior de um cheque" (parcialmente preenchido). |
1 | Parcialmente relevante | O documento menciona o tópico, mas não fornece informações úteis para a consulta. | Pergunta: "Como calcular a área de um retângulo?" O documento discute a área de retângulos apenas em termos gerais. |
0 | Não relevante | O documento não está relacionado à consulta ou o idioma do documento não corresponde ao idioma da consulta. | Consulta em inglês O documento responde corretamente, mas em francês. |
Em comparação com uma escala binária relevante/irrelevante, a escala graduada captura distinções importantes. Por exemplo, um documento que responde diretamente a uma pergunta (nota 3) é significativamente diferente de um que apenas aborda o tema superficialmente (nota 1). Essa granularidade se reflete nas métricas, particularmente no DCG, que dá maior peso aos resultados de maior qualidade.
Todos os métricas incluem intervalos de confiança de 95% calculados para cada consulta, permitindo avaliar se as diferenças entre as estratégias são estatisticamente significativas.
Mérito de recuperação
DCG@k — Ganho Acumulado Descontado
O DCG@10 captura tanto a relevância dos resultados quanto sua posição no ranking, utilizando a escala completa de relevância de 0 a 3. Databricks recomenda o uso do DCG@10 como a principal métrica para avaliar a qualidade geral da recuperação de dados.
- O que mede : A utilidade total dos 10 primeiros resultados, ponderada pela posição. Resultados com melhor classificação contribuem mais do que resultados com classificação inferior.
- Como funciona : A pontuação de relevância de cada resultado é ponderada por um desconto logarítmico com base em sua posição. O primeiro resultado contribui com toda a sua relevância, enquanto os resultados classificados em posições inferiores contribuem progressivamente menos.
- Intervalo : de 0 até o máximo teórico mostrado na tabela a seguir. Quanto mais alto, melhor.
Valores máximos teóricos de DCG, se todos os resultados forem 3:
K | DCG máximo teórico |
|---|---|
1 | 3,00 |
3 | 6,39 |
5 | 8,85 |
10 | 13,63 |
20 | 21.12 |
Para colocar esses números em perspectiva: se todos os 10 resultados tiverem uma relevância de 2 (em uma escala de 0 a 3), o DCG@10 é 13,6. Nesse cenário, um ganho de 1 ponto no DCG@10 representa uma melhoria muito significativa (+7% em relação ao período anterior). Você pode pensar nisso como aproximadamente um resultado na página ficando visivelmente melhor, com maior peso em relação ao topo.
NDCG@k — Ganho cumulativo descontado normalizado
- O que mede : Quão bem os resultados são ordenados em relação à melhor ordenação possível. O NDCG normaliza o DCG dividindo-o pelo DCG ideal (o DCG se os resultados fossem classificados em ordem decrescente de relevância).
- Intervalo : 0 a 1. Uma pontuação de 1,0 significa que os resultados estão em perfeita ordem.
- Quando usar : Quando você deseja saber se o sistema está classificando os resultados corretamente, independentemente do número total de documentos relevantes disponíveis. Veja "Por que DCG@10 é a métrica primária recomendada" para uma comparação detalhada.
Recall@k
- O que mede : A fração de documentos relevantes conhecidos que aparecem nos k primeiros resultados.
- Intervalo : 0 a 1. Uma pontuação de 1,0 significa que todos os documentos relevantes conhecidos foram recuperados.
- Quando usar : Quando a completude é importante, como em aplicações RAG (Raiz, Atitude e Grau), onde a ausência de um documento relevante significa que o LLM gera uma resposta incompleta.
Precisão@k
- O que mede : A fração dos k melhores resultados que são relevantes (pontuação de relevância >= 2).
- Intervalo : 0 a 1. Uma pontuação de 1,0 significa que todos os resultados entre os k melhores são relevantes.
- Quando usar : Quando a qualidade do resultado é mais importante do que a completude, como em interfaces de busca onde resultados irrelevantes podem afetar negativamente a confiança do usuário.
Pontuação média de relevância
- O que mede : A pontuação média de relevância avaliada pelo LLM em todos os pares de consulta e resultado.
- Escala : 0 a 3. Quanto maior, melhor.
- Quando usar : Como uma captura instantânea rápida e de qualidade.
Distribuição de relevância
-
O que mede : A porcentagem de resultados em cada categoria de relevância:
- Percentagem de Alta Relevância : Resultados com pontuação 3 (respostas diretas).
- Relevância+ % : Resultados com pontuação igual ou superior a 2 (úteis).
- % Não relevante : Resultados com pontuação 0 ou 1 (não úteis).
-
Quando usar : Para entender o formato da distribuição da qualidade. Duas estratégias podem ter a mesma pontuação média, mas distribuições muito diferentes. Por exemplo, uma distribuição bimodal (muitos 3s e muitos 0s) pode sugerir que um padrão de consulta não está sendo recuperado corretamente e precisa de atenção.
MRR — Classificação Recíproca Média
- O que mede : A rapidez com que os usuários encontram o primeiro resultado relevante. MRR é a média de 1/classificação entre as consultas, onde classificação é a posição do primeiro resultado relevante (pontuação >= 2).
- Intervalo : 0 a 1. Uma pontuação de 1,0 significa que o primeiro resultado é sempre relevante.
- Quando usar : Quando o resultado principal é mais importante, como em sistemas de perguntas e respostas.
MAP@k — Precisão Média
- O que mede : A qualidade da classificação em todos os resultados relevantes, não apenas no primeiro. O MAP calcula a precisão na posição de cada resultado relevante e, em seguida, calcula a média.
- Intervalo : 0 a 1. Valores mais altos indicam que os documentos relevantes estão consistentemente classificados entre os primeiros.
- Quando usar : Quando você precisa de um único número que capture a qualidade geral da classificação em todos os documentos relevantes.
Por que o DCG@10 é o primário recomendado.
O DCG@10 oferece a visão mais completa da qualidade de recuperação para a maioria das aplicações:
-
A relevância gradual captura nuances : métricas binárias como a precisão tratam todos os documentos relevantes da mesma forma. Um documento que responde perfeitamente à pergunta (nota 3) tem o mesmo peso que um que menciona o tópico de forma vaga (nota 1). A DCG utiliza a escala de relevância completa de 0 a 3, portanto, um resultado com pontuação 3 contribui significativamente mais do que um resultado com pontuação 1.
-
A posição importa : os usuários olham primeiro para os resultados principais. A DCG aplica um desconto logarítmico, de modo que os resultados na posição 1 contam muito mais do que os resultados na posição 10. O primeiro resultado contribui com sua pontuação de relevância completa, enquanto a contribuição do 10º resultado é dividida por log₂(11) ≈ 3,46.
-
A utilidade absoluta revela o que as métricas normalizadas não mostram : considere o exemplo apresentado na tabela a seguir. Ambos os conjuntos de resultados atingem um NDCG perfeito de 1,00 porque cada um deles possui resultados em ordem decrescente ideal. No entanto, o Conjunto de Resultados B oferece quase o dobro do valor total (DCG 8,02 vs 4,26), porque todos os resultados são úteis. O NDCG não consegue distinguir entre "classificação perfeita de 2 bons resultados entre 3 irrelevantes" e "classificação perfeita de 5 bons resultados". A DCG responde à pergunta: "Quanta informação útil o usuário realmente obteve?"
Resultados | Posição 1 | Posição 2 | Posição 3 | Posição 4 | Posição 5 | NDCG@5 | DCG@5 |
|---|---|---|---|---|---|---|---|
Conjunto de resultados A | 3 | 2 | 0 | 0 | 0 | 1,00 | 4,26 |
Conjunto de resultados B | 3 | 3 | 3 | 2 | 2 | 1,00 | 8.02 |
Nenhuma médica sozinha conta a história toda. Utilize o conjunto completo de métricas para obter uma visão abrangente e selecione as métricas que melhor atendam aos requisitos de qualidade da sua aplicação.
Cenários comuns
A tabela a seguir explica os padrões comuns de resultados de avaliação, o que eles significam e como lidar com eles:
Padrão | O que significa | Ação sugerida |
|---|---|---|
Híbrido significativamente melhor que rede neurais artificiais (ANN) | As consultas se beneficiam da correspondência de palavras-chave. | Utilize a busca híbrida em produção. |
rede neurais artificiais (RNA) aproximadamente igual ao híbrido | As palavras-chave não estão agregando valor aos seus dados. | Qualquer uma das estratégias funciona. a rede neurais artificiais (RNA) é mais simples. |
Texto completo significativamente melhor que rede neurais artificiais (ANN) | Os elementos incorporados podem não representar bem o seu domínio. | Considere ajustar seu modelo de incorporação ou usar a pesquisa de texto completo. |
O Reranker melhora significativamente as métricas. | O cross-encoder proporciona uma melhoria significativa na qualidade. | Ative o reclassificador se a latência permitir. |
Intervalos de confiança amplos | Não há consultas suficientes para uma comparação confiável. | Aumente o número de consultas de avaliação. |
Todas as estratégias pontuam baixo. | Problemas de qualidade ou relevância dos dados. | Consulte o guia de qualidade de recuperação de pesquisa vetorial para obter um guia passo a passo sobre como melhorar a qualidade da recuperação. |