Pular para o conteúdo principal

Avaliar a qualidade de recuperação da Pesquisa de AI

info

Beta

Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.

O AI Search oferece avaliação de qualidade de recuperação integrada que mede e compara a relevância de diferentes estratégias de pesquisa nos seus dados. É possível gerar automaticamente consultas de avaliação a partir dos seus documentos, executar múltiplas estratégias de recuperação e gerar um relatório detalhado.

Requisitos

Um Índice de Pesquisa de AI de sincronização Delta gerenciado. Consulte Criar endpoints e Índices de Pesquisa de AI.

Permissões

O job de avaliação e o painel de resultados herdam permissões do Unity Catalog do índice de pesquisa de AI. Qualquer usuário com acesso de consulta ao índice pode iniciar uma execução de avaliação e view o painel de resultados. O usuário que inicia a execução da avaliação é o proprietário do Job, não o proprietário do índice.

Como funciona a avaliação da qualidade da recuperação da pesquisa de IA

A avaliação executa um pipeline de quatro estágios nos seus dados:

  1. Gerar queries: o sistema amostra documentos da sua tabela de origem e usa um LLM para gerar queries de pesquisa realistas. Gera uma mistura de queries em linguagem natural e queries por palavra-chave.
  2. Busca entre estratégias : cada consulta gerada executa em seu índice usando várias estratégias de recuperação, incluindo rede neurais artificiais (ANN), híbrida e texto completo. Cada estratégia também é avaliada com e sem o reorganizador. Esta abordagem compara estratégias lado a lado no mesmo conjunto de consultas. Para obter mais informações sobre cada estratégia de recuperação, consulte Algoritmos de recuperação.
  3. Avaliar relevância : Um juiz LLM avalia cada par de query e documento recuperado em uma escala de relevância de 4 pontos.
  4. Cálculo de métricas e análise : O sistema calcula métricas de qualidade de recuperação com intervalos de confiança. Os resultados são persistidos para que possam ser visualizados mais tarde ou comparados entre as execuções de avaliação.

Começar uma execução de avaliação de qualidade de recuperação

Para começar o processo, clique em Avaliar a qualidade da pesquisa na página de índice da Pesquisa de AI. Nenhuma configuração é necessária, pois os valores default são pré-preenchidos com base nos metadados do seu índice.

Botão de avaliação da qualidade na página do Índice de Pesquisa de IA.

Quando a execução for concluída, clique em Ver resultados para exibir o painel de resultados. Para ter uma visão geral do dashboard, consulte dashboard de resultados.

Link para ver resultados.

Para iniciar uma nova avaliação a qualquer momento, clique em Iniciar nova avaliação .

Painel de resultados

O painel apresenta os resultados das execuções da avaliação. Use o menu suspenso **Selecionar Execução** para selecionar a execução a ser exibida.

Exemplo de painel de resultados.

No topo do painel, há 3 indicadores de resumo: a melhor pontuação DCG@10 em todos os tipos de consulta, o tipo de consulta recomendado que a alcançou e o número de consultas avaliadas.

Consulte Por que o Databricks recomenda o DCG@10.

Abaixo dos indicadores de resumo, o painel exibe um gráfico de barras que compara as pontuações DCG@10 para cada tipo de consulta, com e sem o uso do reranker. Ao lado do gráfico de barras há duas tabelas que mostram o DCG@10 e a relevância média para cada tipo de consulta, com e sem o reranker.

Na sequência, há um gráfico de linha mostrando como a relevância média muda entre as posições de resultado para cada tipo de consulta.

O painel também apresenta as consultas de melhor e pior desempenho por pontuação de relevância média, uma tabela comparando o desempenho base e do reranker para cada tipo de consulta, uma tabela de consultas com falha (consultas em que o resultado top-1 foi pontuado como 0 (irrelevante)) e um gráfico de linha que mostra uma métrica selecionada em execuções de avaliação ao longo do tempo, por métrica de consulta.

Pontuação de relevância

A avaliação da qualidade de recuperação usa um LLM como juiz para pontuar cada par de consulta e documento recuperado em uma escala de relevância graduada de 4 pontos:

Pontuação

Etiqueta

Descrição

Exemplo

3

Altamente relevante

O documento responde diretamente à consulta ou fornece exatamente a informação buscada.

Query: "como eu calculo a área de um retângulo?" Este documento explica a fórmula de comprimento x largura.

2

Relevante

O documento está relacionado e fornece informações úteis, mas pode não responder totalmente à query

Consulta: “Onde está o número de roteamento em um cheque?”

O documento diz "impresso na parte inferior de um cheque" (parcialmente completo)

1

Parcialmente Relevante

O documento aborda o tópico, mas não fornece informações úteis para a consulta.

Consulta: “como calcular a área de um retângulo?”

O documento discute a área de retângulos apenas em termos gerais.

0

Não relevante

O documento não está relacionado à consulta, ou o idioma do documento não corresponde ao idioma da consulta

Consulta em inglês

Documento responde corretamente, mas em francês

Comparada a uma escala binária relevante/não relevante, a escala graduada captura distinções importantes. Por exemplo, um documento que responde diretamente a uma pergunta (pontuação 3) é significativamente diferente de um que meramente aborda o tópico (pontuação 1). Essa granularidade se estende às métricas, especialmente ao DCG, que pondera os resultados de maior qualidade com mais peso.

Todas as métricas incluem intervalos de confiança de 95% calculados a partir dos valores por consulta, para que seja possível avaliar se as diferenças entre as estratégias são estatisticamente significativas.

Métricas de recuperação

Na parte inferior do painel, é possível view uma métrica selecionada ao longo do tempo. Selecione a métrica para exibir no menu suspenso Selecionar Métrica .

View métrica ao longo do tempo.

Esta seção descreve as métricas disponíveis.

DCG@k — Ganho Cumulativo Descontado

O DCG@10 captura tanto a relevância dos resultados quanto onde eles aparecem no ranking, utilizando a escala de relevância completa de 0 a 3. A Databricks recomenda o uso de DCG@10 como a métrica primária para avaliar a qualidade geral de recuperação.

  • O que mede : A utilidade total dos 10 principais resultados, ponderada pela posição. Resultados com classificação mais alta contribuem mais do que os com classificação mais baixa.
  • Como funciona : Cada resultado contribui com um ganho de 2^relevance - 1, ponderado por um desconto logarítmico com base em sua posição. Usar 2^relevance - 1 (em vez da pontuação de relevância bruta) enfatiza os resultados altamente relevantes: uma pontuação 3 contribui com 7, enquanto uma pontuação 1 contribui com 1. O primeiro resultado contribui com seu ganho total, enquanto resultados de classificação inferior contribuem progressivamente menos.
  • Intervalo : 0 até o máximo teórico apresentado na tabela a seguir. Maior é melhor.

Valores máximos teóricos de DCG, se cada resultado pontuar 3:

K

Máx. DCG teórico

1

7,00

3

14,92

5

20,64

10

31,80

20

49,28

Para colocar esses números em perspectiva: se todos os 10 resultados tiverem uma relevância de 2 (em uma escala de 0–3), o DCG@10 é 13,63. Nesse cenário, um ganho de 1 ponto de DCG@10 é uma melhoria significativa (+7% relativo). Você pode pensar nisso como aproximadamente um resultado na página melhorando visivelmente, com maior peso para o topo.

NDCG@k — Ganho Cumulativo Descontado Normalizado

  • O que mede : A qualidade da ordenação dos resultados em relação à melhor ordenação possível. O NDCG normaliza o DCG dividindo-o pelo DCG ideal (o DCG caso os resultados fossem ordenados por ordem decrescente de relevância).
  • Intervalo : de 0 a 1. Uma pontuação de 1,0 significa que os resultados estão em perfeita ordem.
  • Quando utilizar : Quando você deseja saber se o sistema está classificando os resultados corretamente, independentemente do número total de documentos relevantes disponíveis. Consulte Por que DCG@10 é a métrica principal recomendada para uma comparação detalhada.

Lembre-se do @k

  • O que mede : a fração de documentos relevantes conhecidos que aparecem nos resultados top-k.
  • Intervalo : de 0 a 1. Uma pontuação de 1,0 significa que todos os documentos relevantes conhecidos foram recuperados.
  • Quando utilizar : Quando a completude é importante, como em aplicações RAG onde a ausência de um documento relevante significa que o LLM gera uma resposta incompleta.

Precisão@k

  • Medida: A fração dos principais resultados k que são relevantes (pontuação de relevância >= 2).
  • Intervalo : de 0 a 1. Uma pontuação de 1,0 significa que todo resultado nos principais k é relevante.
  • Quando usar : Quando a qualidade do resultado importa mais do que a completude, como em interfaces de busca onde resultados irrelevantes podem afetar negativamente a confiança do usuário.

Média de pontuação de relevância

  • O que mede : A pontuação média de relevância avaliada por LLM em todos os pares de consulta e resultado.
  • Intervalo : de 0 a 3. Maior é melhor.
  • Quando usar : Como um rápido Snapshot de qualidade.

Distribuição de relevância

  • O que mede : a porcentagem de resultados em cada categoria de relevância:

    • Altamente Relevante % : Resultados com pontuação 3 (respostas diretas).
    • Relevantes+ %: resultados com pontuação 2 ou superior (úteis).
    • Não Relevante % : Resultados com pontuação 0 ou 1 (não útil).
  • Quando usar : Para entender a forma da distribuição da qualidade. Duas estratégias podem ter a mesma pontuação média, mas distribuições muito diferentes. Por exemplo, uma distribuição bimodal (muitos 3s e muitos 0s) pode sugerir que um padrão de consulta não está sendo bem recuperado e precisa de atenção.

MRR — Média do Rank Recíproco

  • O que mede : A rapidez com que os usuários encontram o primeiro resultado relevante. MRR é a média de 1/classificação entre as consultas, onde a classificação é a posição do primeiro resultado relevante (pontuação >= 2).
  • Intervalo : de 0 a 1. Uma pontuação de 1,0 significa que o primeiro resultado é sempre relevante.
  • Quando usar: Quando o resultado principal é o mais importante, como em sistemas de resposta a perguntas.

MAP@k — Média da Precisão Média

  • O que mede : a qualidade de classificação em todos os resultados relevantes, não apenas o primeiro. MAP calcula a precisão em cada posição de resultado relevante e depois faz a média.
  • Intervalo : de 0 a 1. Valores mais altos indicam que os documentos relevantes são consistentemente classificados próximos ao topo.
  • Quando usar : Quando for necessário um único número que capture a qualidade geral do ranqueamento em todos os documentos relevantes.

Por Que DCG@10 É a Métrica Primária Recomendada

DCG@10 oferece o panorama mais completo da qualidade de recuperação para a maioria das aplicações:

  • A relevância classificada captura nuances : métricas binárias como precisão tratam todos os documentos relevantes igualmente. Um documento que responde perfeitamente à consulta (pontuação 3) conta o mesmo que um que menciona vagamente o tópico (pontuação 1). A DCG usa a escala completa de relevância de 0 a 3, portanto, um resultado com pontuação 3 contribui significativamente mais do que um resultado com pontuação 1.
  • A posição importa : os usuários veem os resultados principais primeiro. DCG aplica um desconto logarítmico, de modo que os resultados na posição 1 contam muito mais do que os resultados na posição 10. O primeiro resultado contribui com sua pontuação de relevância total, enquanto a contribuição do 10º resultado é dividida por log₂(11) ≈ 3,46.
  • A utilidade absoluta revela o que as métricas normalizadas não capturam: Considere o exemplo apresentado na tabela a seguir. Ambos os conjuntos de resultados atingem um NDCG perfeito de 1,00 porque cada um tem resultados em ordem decrescente ideal. No entanto, o Conjunto de Resultados B entrega quase o dobro do valor total (DCG 8,02 vs. 4,26) porque cada resultado é útil. NDCG não consegue distinguir entre “classificação perfeita de 2 bons resultados entre 3 resultados irrelevantes” e “classificação perfeita de 5 bons resultados”. DCG responde à pergunta: "Quanta informação útil o usuário realmente obteve?"

Para obter mais informações sobre DCG e NDCG, consulte Ganho cumulativo descontado.

Resultados

Posição 1

Posição 2

Posição 3

Posição 4

Posição 5

NDCG@5

DCG@5

Conjunto de resultados A

3

2

0

0

0

1,00

4,26

Conjunto de resultados B

3

3

3

2

2

1,00

8,02

Nenhuma métrica isolada mostra o panorama completo. Utilize o conjunto completo de métricas para uma visão completa e selecione a métrica que melhor se adapte aos requisitos de qualidade de sua aplicação.

Cenários comuns

A tabela a seguir explica os padrões comuns de resultados de avaliação: o que significam e como abordá-los.

Padrão

O que significa

Ação sugerida

Híbrido significativamente melhor do que rede neurais artificiais (ANN)

As consultas se beneficiam da correspondência de palavras-chave.

Usar pesquisa híbrida em produção.

rede neurais artificiais (ANN) aproximadamente igual a híbrido

Palavras-chave não estão agregando valor para os seus dados.

Qualquer estratégia funciona. Rede neurais artificiais (ANN) é mais simples.

O texto completo é significativamente melhor que as redes neurais artificiais (ANN).

Embeddings podem não capturar bem o seu domínio.

Considere ajustar o seu modelo de incorporação ou usar a pesquisa de texto completo.

O Reclassificador melhora as métricas significativamente

Cross-encoder oferece ganho de qualidade significativo.

Habilitar reclassificador se o orçamento de latência permitir.

Intervalos de confiança amplos

Queries insuficientes para comparação confiável.

Aumente o número de consultas de avaliação.

Todas as estratégias apresentam pontuação baixa

Qualidade dos dados ou problemas de relevância.

Consulte o guia de qualidade de recuperação da Pesquisa de AI para um guia passo a passo para melhorar a qualidade da recuperação.