Marcadores RAGAS

RAGAS (Retrieval Augmented Generation Assessment) é uma estrutura de avaliação para candidaturas a mestrados em Direito (LLM). O MLflow integra-se com o RAGAS para que você possa usar as métricas do RAGAS como indicadores para avaliar a qualidade da recuperação de dados, a geração de respostas, o comportamento do agente e a similaridade de texto.

Requisitos

Instale o pacote ragas :

Python
%pip install ragas

Comece rápido

Para ligar diretamente para um anotador da RAGAS:

Python
from mlflow.genai.scorers.ragas import Faithfulness

scorer = Faithfulness(model="databricks:/databricks-gpt-5-mini")
feedback = scorer(trace=trace)

print(feedback.value)  # Score between 0.0 and 1.0
print(feedback.rationale)  # Explanation of the score

Para chamar os marcadores RAGAS usando mlflow.genai.evaluate():

Python
import mlflow
from mlflow.genai.scorers.ragas import Faithfulness, ContextPrecision

traces = mlflow.search_traces()
results = mlflow.genai.evaluate(
    data=traces,
    scorers=[
        Faithfulness(model="databricks:/databricks-gpt-5-mini"),
        ContextPrecision(model="databricks:/databricks-gpt-5-mini"),
    ],
)

Marcadores RAGAS disponíveis

RAG

Esses avaliadores analisam a qualidade da recuperação e a geração de respostas em aplicações de geração aumentada por recuperação (RAG).

Marcador	O que avalia?	Documentos RAGAS
`ContextPrecision`	Os documentos relevantes recuperados são classificados em posição superior aos irrelevantes?	Link
`ContextUtilization`	Quão eficazmente o contexto recuperado está sendo usado na resposta?	Link
`NonLLMContextPrecisionWithReference`	Versão não-LLM da precisão contextual usando respostas de referência.	Link
`ContextRecall`	O contexto de recuperação contém todas as informações necessárias para responder à consulta?	Link
`NonLLMContextRecall`	Variante não-LLM da recordação contextual usando respostas de referência.	Link
`ContextEntityRecall`	As entidades da resposta esperada estão presentes no contexto recuperado?	Link
`NoiseSensitivity`	Quão sensível é o modelo a informações irrelevantes no contexto?	Link
`AnswerRelevancy`	Qual a relevância da resposta gerada para a consulta inserida?	Link
`Faithfulness`	O resultado é factualmente consistente com o contexto de recuperação?	Link
`AnswerAccuracy`	Quão precisa é a resposta em comparação com a realidade?	Link
`ContextRelevance`	Qual a relevância do contexto recuperado para a consulta de entrada?	Link
`ResponseGroundedness`	A resposta está fundamentada no contexto apresentado?	Link

Utilização de agentes e ferramentas

Esses avaliadores analisam o comportamento do agente AI , incluindo a precisão na invocação de ferramentas e o alcance de objetivos.

Marcador	O que avalia?	Documentos RAGAS
`TopicAdherence`	O agente consegue manter-se no assunto durante a conversa?	Link
`ToolCallAccuracy`	As ferramentas corretas foram chamadas com os parâmetros apropriados?	Link
`ToolCallF1`	Pontuação F1 para previsão de chamadas de ferramentas.	Link
`AgentGoalAccuracyWithReference`	O agente alcançou seu objetivo? Comparado com uma resposta de referência.	Link
`AgentGoalAccuracyWithoutReference`	O agente alcançou seu objetivo? Avaliado sem resposta de referência.	Link

Comparação de linguagem natural

Esses avaliadores comparam o texto gerado com o resultado esperado, utilizando métodos semânticos e determinísticos.

Marcador	O que avalia?	Documentos RAGAS
`FactualCorrectness`	O resultado obtido está correto em comparação com a resposta esperada?	Link
`SemanticSimilarity`	Similaridade semântica entre a saída e a resposta esperada.	Link
`NonLLMStringSimilarity`	Similaridade entre as strings de saída e a resposta esperada.	Link
`BleuScore`	Pontuação BLEU para comparação de textos.	Link
`ChrfScore`	Pontuação CHRF para comparação de textos.	Link
`RougeScore`	Pontuação ROUGE para comparação de texto.	Link
`StringPresence`	Existe alguma sequência específica de caracteres presente na saída?	Link
`ExactMatch`	O resultado corresponde exatamente ao resultado esperado?	Link

Propósito geral

Esses sistemas de avaliação oferecem uma lógica de avaliação flexível e personalizável.

Marcador	O que avalia?	Documentos RAGAS
`AspectCritic`	Avalia aspectos específicos da saída usando um LLM.	Link
`DiscreteMetric`	Métricas discretas personalizadas com lógica de pontuação flexível.	Link
`RubricsScore`	As pontuações são geradas com base em critérios predefinidos.	Link
`InstanceSpecificRubrics`	As pontuações são geradas com base em critérios específicos da instância.	Link

Outra tarefa

Marcador	O que avalia?	Documentos RAGAS
`SummarizationScore`	Qualidade do resumo do texto.	Link

Criar um marcador por nome

Você pode criar um marcador dinamicamente usando get_scorer passando o nome dos métricas como uma string:

Python
from mlflow.genai.scorers.ragas import get_scorer

scorer = get_scorer(
    metric_name="Faithfulness",
    model="databricks:/databricks-gpt-5-mini",
)
feedback = scorer(trace=trace)

Configuração

Os avaliadores RAGAS aceitam parâmetros específicos da métrica como argumentos nomeados para o construtor. As métricas baseadas em LLM requerem um parâmetro model . As métricas que não utilizam o modelo LLM não requerem um modelo.

Python
from mlflow.genai.scorers.ragas import Faithfulness, ExactMatch

# LLM-based metric with model specification
scorer = Faithfulness(model="databricks:/databricks-gpt-5-mini")

# Non-LLM metric (no model required)
deterministic_scorer = ExactMatch()

Para parâmetros específicos de métricas e opções de uso avançadas, consulte a documentação do RAGAS.

Requisitos​

Comece rápido​

Marcadores RAGAS disponíveis​

RAG​

Utilização de agentes e ferramentas​

Comparação de linguagem natural​

Propósito geral​

Outra tarefa​

Criar um marcador por nome​

Configuração​