Métricas

Visualização

Este recurso está na visualização privada. Para experimentar, entre em contato com seu contato do Databricks.

Procurando um documento RAG Studio diferente? Vá para o índice de documentação RAG

Para avaliar seu aplicativo RAG, use 📈 Metrics. O Databricks fornece um conjunto de métricas que permitem medir a qualidade, o custo e a latência do seu aplicativo RAG. Essas métricas são selecionadas pela equipe de pesquisa da Databricks como as métricas mais relevantes (sem trocadilhos) para avaliar aplicativos RAG.

📈 Metrics são computados usando:

  1. Tráfego de usuários: 👍 Assessments e 🗂️ Request Log

  2. 📖 Evaluation Set: 👍 Assessments e 🗂️ Request Log com curadoria do desenvolvedor que representam solicitações comuns

Para a maioria das métricas, 👍 Assessments vem de 🤖 LLM Judge, 🧠 Expert Users ou 👤 End Users. Um pequeno subconjunto de métricas, como a correção da resposta, requer avaliações anotar 🧠 Expert Users ou 👤 End Users .

Coletando 👍 Assessments

De um 🤖 LLM Judge

De 👤 End Users e 🧠 Expert Users

Calcular métricas

As métricas são calculadas como 📈 Evaluation Results pelo RAG Studio e armazenadas em 👍 Assessment & Evaluation Results Log.

Existem 2 maneiras de compute métricas:

  1. As métricas automáticas são computadas automaticamente para todo o tráfego que chama a API REST do 🔗 Chain (hospedada no modelo Mosaic IA específico). .. note:: O tráfego da API REST de 🔗 Chain (hospedado no modelo Mosaic IA ocasional) inclui o tráfego do 💬 Review UI, uma vez que esta UI chama a API REST.

  2. O cálculo manual de medições para um Version usando um 📖 Evaluation Set pode ser acionado seguindo a avaliação off-line de execução com um 📖 Conjunto de avaliação

Recuperação e geração de documentos não estruturados

Recuperador

O RAG Studio oferece suporte às seguintes métricas para avaliar o recuperador.

Pergunta para responder

Métrica

Por valor de rastreamento

Valor agregado

Requer avaliação anotar humana

Onde pode ser medido?

Os pedaços recuperados são relevantes para a consulta do usuário?

Precisão do “pedaço relevante” @ K

0 a 100%

0 a 100%

✔️

Avaliação on-line e off-line

TODOS os pedaços relevantes para a consulta do usuário são recuperados?

Lembre-se de “pedaço relevante” @ K

0 a 100%

0 a 100%

✔️

Avaliação on-line e off-line

Os pedaços recuperados são retornados na ordem correta, do mais para o menos relevante?

nDCG de “pedaço relevante” @ K

0 a 1

0 a 1

✔️

Avaliação on-line e off-line

Qual é a latência de recuperação?

Latência

milissegundos

média (milissegundos)

N/A

Avaliação on-line e off-line

Dica

🚧 roteiro 🚧 [1] Custo [2] Os pedaços recuperados contêm todas as informações necessárias para responder à consulta? [3] Precisão média (AP) [4] Precisão média média (mAP) [5] Ativação de 🤖 LLM Judge para métricas de recuperação para que não exijam uma avaliação de verdade.

Modelo de geração (para recuperação)

Essas métricas medem o desempenho do modelo de geração quando o prompt é aumentado com documentos não estruturados de uma recuperação ou passo.

Pergunta para responder

Métrica

Por valor de rastreamento

Valor agregado

Requer avaliação anotar humana

Onde pode ser medido?

O LLM está respondendo com base SOMENTE no contexto fornecido? Ou seja, não ter alucinações e não usar o conhecimento que faz parte do pré-treinamento do modelo

Fidelidade (ao contexto)

verdadeiro falso

0 a 100%

✖️

Avaliação on-line e off-line

A resposta está no tópico dada a consulta E os contextos recuperados?

Relevância da resposta (para consultar dado o contexto)

verdadeiro falso

0 a 100%

✖️

Avaliação on-line e off-line

Dica

🚧 roteiro 🚧 [1] O LLM utilizou as informações corretas de cada contexto fornecido? [2] A resposta responde a toda a consulta? Ou seja, se eu perguntar “quem são Bob e Sam?” a resposta é sobre Bob e Sam?

Corpus de dados

Dica

🚧 roteiro 🚧 [1] Meu corpus contém todas as informações necessárias para responder a uma consulta? ou seja, falta algum documento necessário no índice para responder a uma pergunta específica?

Modelo de geração (qualquer tarefa) Estatísticas

Essas métricas medem o desempenho do modelo de geração. Eles funcionam para qualquer prompt, aumentado ou não aumentado.

Pergunta para responder

Métrica

Por valor de rastreamento

Valor agregado

Requer avaliação anotar humana

Onde pode ser medido?

Qual é o custo da geração?

Contagem de tokens

soma (tokens)

soma (tokens)

N/A

Avaliação on-line e off-line

Qual é a latência de geração?

Latência

milissegundos

média (milissegundos)

N/A

Avaliação on-line e off-line

Medições da cadeia RAG

Essas métricas medem a resposta final da cadeia ao usuário.

Pergunta para responder

Métrica

Por valor de rastreamento

Valor agregado

Requer avaliação anotar humana

Onde pode ser medido?

A resposta é precisa (correta)?

Correção da resposta (vs. verdade fundamental)

verdadeiro falso

0 a 100%

✔️

Avaliação off-line

A resposta viola alguma das políticas da minha empresa (racismo, toxicidade, etc.)?

Toxicidade

verdadeiro falso

0 a 100%

✖️

Avaliação on-line e off-line

Dica

🚧 roteiro 🚧 [1] Custo total [2] Latência total [3] Similaridade de resposta (com a verdade) usando correlação de Spearman baseada na distância do cosseno [4] Métricas baseadas em códigos de razão selecionados pelo avaliador (por exemplo, útil, muito prolixo, etc. ) [5] Taxa de retenção de usuários e outras métricas tradicionais de engajamento de aplicativos [6] A resposta está alinhada com os padrões da minha empresa (gramática adequada, tom de voz, etc.)? [7] Avaliações adicionais para Does the response violate any of my company policies (racism, toxicity, etc)? com base no LLaMa-Guard [4] % de conversas sem sinais de feedback negativo