Marcadores RAGAS
RAGAS (Retrieval Augmented Generation Assessment) é uma estrutura de avaliação para candidaturas a mestrados em Direito (LLM). O MLflow integra-se com o RAGAS para que você possa usar as métricas do RAGAS como indicadores para avaliar a qualidade da recuperação de dados, a geração de respostas, o comportamento do agente e a similaridade de texto.
Requisitos
Instale o pacote ragas :
%pip install ragas
Comece rápido
Para ligar diretamente para um anotador da RAGAS:
from mlflow.genai.scorers.ragas import Faithfulness
scorer = Faithfulness(model="databricks:/databricks-gpt-5-mini")
feedback = scorer(trace=trace)
print(feedback.value) # Score between 0.0 and 1.0
print(feedback.rationale) # Explanation of the score
Para chamar os marcadores RAGAS usando mlflow.genai.evaluate():
import mlflow
from mlflow.genai.scorers.ragas import Faithfulness, ContextPrecision
traces = mlflow.search_traces()
results = mlflow.genai.evaluate(
data=traces,
scorers=[
Faithfulness(model="databricks:/databricks-gpt-5-mini"),
ContextPrecision(model="databricks:/databricks-gpt-5-mini"),
],
)
Marcadores RAGAS disponíveis
RAG
Esses avaliadores analisam a qualidade da recuperação e a geração de respostas em aplicações de geração aumentada por recuperação (RAG).
Marcador | O que avalia? | Documentos RAGAS |
|---|---|---|
Os documentos relevantes recuperados são classificados em posição superior aos irrelevantes? | ||
Quão eficazmente o contexto recuperado está sendo usado na resposta? | ||
Versão não-LLM da precisão contextual usando respostas de referência. | ||
O contexto de recuperação contém todas as informações necessárias para responder à consulta? | ||
Variante não-LLM da recordação contextual usando respostas de referência. | ||
As entidades da resposta esperada estão presentes no contexto recuperado? | ||
Quão sensível é o modelo a informações irrelevantes no contexto? | ||
Qual a relevância da resposta gerada para a consulta inserida? | ||
O resultado é factualmente consistente com o contexto de recuperação? | ||
Quão precisa é a resposta em comparação com a realidade? | ||
Qual a relevância do contexto recuperado para a consulta de entrada? | ||
A resposta está fundamentada no contexto apresentado? |
Utilização de agentes e ferramentas
Esses avaliadores analisam o comportamento do agente AI , incluindo a precisão na invocação de ferramentas e o alcance de objetivos.
Marcador | O que avalia? | Documentos RAGAS |
|---|---|---|
O agente consegue manter-se no assunto durante a conversa? | ||
As ferramentas corretas foram chamadas com os parâmetros apropriados? | ||
Pontuação F1 para previsão de chamadas de ferramentas. | ||
O agente alcançou seu objetivo? Comparado com uma resposta de referência. | ||
O agente alcançou seu objetivo? Avaliado sem resposta de referência. |
Comparação de linguagem natural
Esses avaliadores comparam o texto gerado com o resultado esperado, utilizando métodos semânticos e determinísticos.
Marcador | O que avalia? | Documentos RAGAS |
|---|---|---|
O resultado obtido está correto em comparação com a resposta esperada? | ||
Similaridade semântica entre a saída e a resposta esperada. | ||
Similaridade entre as strings de saída e a resposta esperada. | ||
Pontuação BLEU para comparação de textos. | ||
Pontuação CHRF para comparação de textos. | ||
Pontuação ROUGE para comparação de texto. | ||
Existe alguma sequência específica de caracteres presente na saída? | ||
O resultado corresponde exatamente ao resultado esperado? |
Propósito geral
Esses sistemas de avaliação oferecem uma lógica de avaliação flexível e personalizável.
Marcador | O que avalia? | Documentos RAGAS |
|---|---|---|
Avalia aspectos específicos da saída usando um LLM. | ||
Métricas discretas personalizadas com lógica de pontuação flexível. | ||
As pontuações são geradas com base em critérios predefinidos. | ||
As pontuações são geradas com base em critérios específicos da instância. |
Outra tarefa
Marcador | O que avalia? | Documentos RAGAS |
|---|---|---|
Qualidade do resumo do texto. |
Criar um marcador por nome
Você pode criar um marcador dinamicamente usando get_scorer passando o nome dos métricas como uma string:
from mlflow.genai.scorers.ragas import get_scorer
scorer = get_scorer(
metric_name="Faithfulness",
model="databricks:/databricks-gpt-5-mini",
)
feedback = scorer(trace=trace)
Configuração
Os avaliadores RAGAS aceitam parâmetros específicos da métrica como argumentos nomeados para o construtor. As métricas baseadas em LLM requerem um parâmetro model . As métricas que não utilizam o modelo LLM não requerem um modelo.
from mlflow.genai.scorers.ragas import Faithfulness, ExactMatch
# LLM-based metric with model specification
scorer = Faithfulness(model="databricks:/databricks-gpt-5-mini")
# Non-LLM metric (no model required)
deterministic_scorer = ExactMatch()
Para parâmetros específicos de métricas e opções de uso avançadas, consulte a documentação do RAGAS.