Pular para o conteúdo principal

avaliadores terceirizados

MLflow integra-se com frameworks populares de avaliação de código aberto, permitindo que você utilize seus métricas especializadas como avaliadores, juntamente com avaliadores LLM integrados e avaliadores baseados em código. Os avaliadores de terceiros se integram diretamente ao mlflow.genai.evaluate(), dando acesso a uma ampla biblioteca de métricas de avaliação por meio de uma única interface unificada.

Por que usar avaliadores de terceiros?

Os sistemas de pontuação de terceiros são úteis quando você precisa de:

  • Métricas especializadas não cobertas pelos juízes integrados, como qualidade do plano do agente, detecção de jailbreak ou pontuações de comparação de texto BLEU/ROUGE.
  • Aproveitamento das funcionalidades específicas da biblioteca que sua equipe já utiliza, sem alterar o fluxo de trabalho de avaliação.
  • Avaliação combinada em várias estruturas em uma única chamada mlflow.genai.evaluate() , com resultados visualizados juntos na interface do usuário do MLflow.

Integrações disponíveis

Cada integração encapsula as métricas de uma estrutura de terceiros como avaliadores MLflow. Instale o pacote do framework, importe o scorer e passe-o para mlflow.genai.evaluate().

Integração

Quando usar:

Avaliadores do DeepEval

Você precisa da mais ampla cobertura de métricas em RAG (Realidade, Atitudes, Posicionamento e Gratificação), agentes, AI conversacional e segurança. O DeepEval oferece ferramentas de avaliação especializadas para a qualidade do plano do agente, eficiência do passo a passo, completude da conversa em múltiplas interações e adesão ao papel, recursos que outras estruturas não oferecem.

Marcadores RAGAS

Você precisa de uma avaliação RAG profunda com métricas de contexto refinadas (precisão, recall, utilização, sensibilidade ao ruído), precisão do objetivo do agente ou pontuações determinísticas de comparação de texto como BLEU, ROUGE e similaridade semântica sem chamadas LLM.

Marcadores do Arize Phoenix

Você precisa de um conjunto de ferramentas de avaliação leves e focadas para detecção de alucinações, avaliação de relevância, identificação de toxicidade, correção do controle de qualidade ou qualidade da sumarização.

Pontuadores TruLens

É necessário analisar os rastros de execução do agente com métricas de alinhamento entre objetivo, plano e ação, como consistência lógica, eficiência de execução, aderência ao plano e seleção de ferramentas.

Pontuadores AI Guardrails

Você precisa de validação de saída baseada em regras que seja executada sem chamadas LLM , como detecção de toxicidade, verificação de informações pessoais identificáveis (PII), detecção de jailbreak, detecção de segredos ou identificação de caracteres sem sentido.

Exemplo rápido

O exemplo a seguir combina avaliadores de duas estruturas diferentes em uma única avaliação:

Python
import mlflow
from mlflow.genai.scorers.deepeval import AnswerRelevancy
from mlflow.genai.scorers.guardrails import ToxicLanguage

eval_dataset = [
{
"inputs": {"query": "What is MLflow?"},
"outputs": "MLflow is an open-source platform for managing ML and GenAI workloads.",
},
]

results = mlflow.genai.evaluate(
data=eval_dataset,
scorers=[
AnswerRelevancy(threshold=0.7, model="databricks:/databricks-gpt-5-mini"),
ToxicLanguage(threshold=0.7),
],
)

Quando usar avaliadores de terceiros versus avaliadores integrados

Comece com juízes integrados LLM para necessidades comuns de avaliação, como correção, fundamentação e segurança. Adicione avaliadores terceirizados nas seguintes situações:

  • Você já utiliza essas bibliotecas no seu fluxo de trabalho e deseja aproveitar outros recursos MLflow .
  • Você precisa de métricas para um domínio específico que os juízes da Integra não abrangem, como a eficiência do agente ou a completude da conversa.
  • Você precisa de métricas de avaliação determinísticas e não baseadas em LLM, como pontuações BLEU, correspondência exata ou correspondência de padrões regex.
  • Você precisa de validadores baseados em regras que sejam executados sem chamadas LLM , como detecção de PII ou verificação de segredos.