Pular para o conteúdo principal

Marcadores RAGAS

RAGAS (Retrieval Augmented Generation Assessment) é uma estrutura de avaliação para candidaturas a mestrados em Direito (LLM). O MLflow integra-se com o RAGAS para que você possa usar as métricas do RAGAS como indicadores para avaliar a qualidade da recuperação de dados, a geração de respostas, o comportamento do agente e a similaridade de texto.

Requisitos

Instale o pacote ragas :

Python
%pip install ragas

Comece rápido

Para ligar diretamente para um anotador da RAGAS:

Python
from mlflow.genai.scorers.ragas import Faithfulness

scorer = Faithfulness(model="databricks:/databricks-gpt-5-mini")
feedback = scorer(trace=trace)

print(feedback.value) # Score between 0.0 and 1.0
print(feedback.rationale) # Explanation of the score

Para chamar os marcadores RAGAS usando mlflow.genai.evaluate():

Python
import mlflow
from mlflow.genai.scorers.ragas import Faithfulness, ContextPrecision

traces = mlflow.search_traces()
results = mlflow.genai.evaluate(
data=traces,
scorers=[
Faithfulness(model="databricks:/databricks-gpt-5-mini"),
ContextPrecision(model="databricks:/databricks-gpt-5-mini"),
],
)

Marcadores RAGAS disponíveis

RAG

Esses avaliadores analisam a qualidade da recuperação e a geração de respostas em aplicações de geração aumentada por recuperação (RAG).

Marcador

O que avalia?

Documentos RAGAS

ContextPrecision

Os documentos relevantes recuperados são classificados em posição superior aos irrelevantes?

Link

ContextUtilization

Quão eficazmente o contexto recuperado está sendo usado na resposta?

Link

NonLLMContextPrecisionWithReference

Versão não-LLM da precisão contextual usando respostas de referência.

Link

ContextRecall

O contexto de recuperação contém todas as informações necessárias para responder à consulta?

Link

NonLLMContextRecall

Variante não-LLM da recordação contextual usando respostas de referência.

Link

ContextEntityRecall

As entidades da resposta esperada estão presentes no contexto recuperado?

Link

NoiseSensitivity

Quão sensível é o modelo a informações irrelevantes no contexto?

Link

AnswerRelevancy

Qual a relevância da resposta gerada para a consulta inserida?

Link

Faithfulness

O resultado é factualmente consistente com o contexto de recuperação?

Link

AnswerAccuracy

Quão precisa é a resposta em comparação com a realidade?

Link

ContextRelevance

Qual a relevância do contexto recuperado para a consulta de entrada?

Link

ResponseGroundedness

A resposta está fundamentada no contexto apresentado?

Link

Utilização de agentes e ferramentas

Esses avaliadores analisam o comportamento do agente AI , incluindo a precisão na invocação de ferramentas e o alcance de objetivos.

Marcador

O que avalia?

Documentos RAGAS

TopicAdherence

O agente consegue manter-se no assunto durante a conversa?

Link

ToolCallAccuracy

As ferramentas corretas foram chamadas com os parâmetros apropriados?

Link

ToolCallF1

Pontuação F1 para previsão de chamadas de ferramentas.

Link

AgentGoalAccuracyWithReference

O agente alcançou seu objetivo? Comparado com uma resposta de referência.

Link

AgentGoalAccuracyWithoutReference

O agente alcançou seu objetivo? Avaliado sem resposta de referência.

Link

Comparação de linguagem natural

Esses avaliadores comparam o texto gerado com o resultado esperado, utilizando métodos semânticos e determinísticos.

Marcador

O que avalia?

Documentos RAGAS

FactualCorrectness

O resultado obtido está correto em comparação com a resposta esperada?

Link

SemanticSimilarity

Similaridade semântica entre a saída e a resposta esperada.

Link

NonLLMStringSimilarity

Similaridade entre as strings de saída e a resposta esperada.

Link

BleuScore

Pontuação BLEU para comparação de textos.

Link

ChrfScore

Pontuação CHRF para comparação de textos.

Link

RougeScore

Pontuação ROUGE para comparação de texto.

Link

StringPresence

Existe alguma sequência específica de caracteres presente na saída?

Link

ExactMatch

O resultado corresponde exatamente ao resultado esperado?

Link

Propósito geral

Esses sistemas de avaliação oferecem uma lógica de avaliação flexível e personalizável.

Marcador

O que avalia?

Documentos RAGAS

AspectCritic

Avalia aspectos específicos da saída usando um LLM.

Link

DiscreteMetric

Métricas discretas personalizadas com lógica de pontuação flexível.

Link

RubricsScore

As pontuações são geradas com base em critérios predefinidos.

Link

InstanceSpecificRubrics

As pontuações são geradas com base em critérios específicos da instância.

Link

Outra tarefa

Marcador

O que avalia?

Documentos RAGAS

SummarizationScore

Qualidade do resumo do texto.

Link

Criar um marcador por nome

Você pode criar um marcador dinamicamente usando get_scorer passando o nome dos métricas como uma string:

Python
from mlflow.genai.scorers.ragas import get_scorer

scorer = get_scorer(
metric_name="Faithfulness",
model="databricks:/databricks-gpt-5-mini",
)
feedback = scorer(trace=trace)

Configuração

Os avaliadores RAGAS aceitam parâmetros específicos da métrica como argumentos nomeados para o construtor. As métricas baseadas em LLM requerem um parâmetro model . As métricas que não utilizam o modelo LLM não requerem um modelo.

Python
from mlflow.genai.scorers.ragas import Faithfulness, ExactMatch

# LLM-based metric with model specification
scorer = Faithfulness(model="databricks:/databricks-gpt-5-mini")

# Non-LLM metric (no model required)
deterministic_scorer = ExactMatch()

Para parâmetros específicos de métricas e opções de uso avançadas, consulte a documentação do RAGAS.