Juízes e Avaliadores de LLM
Os avaliadores avaliam a qualidade do aplicativo GenAI analisando resultados e produzindo feedback estruturado. O mesmo marcador pode ser usado para avaliação em desenvolvimento e reutilizado para monitoramento em produção.
O MLflow fornece dois tipos de pontuadores:
-
Juízes do LLM - Avaliadores que utilizam Grandes Modelos de Linguagem para avaliar critérios de qualidade diferenciados, como relevância, segurança e correção. Isso inclui:
- Juízes LLM integrados - Juízes pré-configurados para dimensões de qualidade comuns
- Juízes LLM personalizados - Juízes específicos de domínio que você cria para suas necessidades
-
Pontuadores baseados em código - Pontuadores determinísticos que usam lógica programática para métricas como latência, uso de tokens e correspondência exata:
- Pontuadores baseados em código personalizado - funções Python que compute métricas específicas
A captura de tela da interface do usuário MLflow abaixo ilustra as saídas de um juiz LLM integrado Safety e um avaliador personalizado exact_match:

O trecho de código abaixo calcula essas métricas usando mlflow.genai.evaluate() e então registra os mesmos scorers para monitoramento de produção:
import mlflow
from mlflow.genai.scorers import Safety, ScorerSamplingConfig, scorer
from typing import Any
@scorer
def exact_match(outputs: str, expectations: dict[str, Any]) -> bool:
# Example of a custom code-based scorer
return outputs == expectations["expected_response"]
# Evaluation during development
eval_results = mlflow.genai.evaluate(
data=eval_dataset,
predict_fn=my_app,
scorers=[Safety(), exact_match]
)
# Production monitoring - same scorers!
registered_scorers = [
Safety().register(),
exact_match.register(),
]
registered_scorers = [
reg_scorer.start(
sampling_config=ScorerSamplingConfig(sample_rate=0.1)
)
for reg_scorer in registered_scorers
]
Próximos passos
- Use juízes LLM integrados - comece a avaliar seu aplicativo rapidamente com juízes LLM integrados
- Criação de juízes LLM personalizados - Personalize juízes LLM para sua aplicação específica
- Crie marcadores personalizados baseados em código - Crie marcadores baseados em código, incluindo possíveis entradas, saídas e tratamento de erros
- Avaliação de desempenho - Entenda como
mlflow.genai.evaluate()usa seus juízes de LLM e avaliadores baseados em código - Monitoramento de produção para GenAI - implantei seus Juízes LLM e marcadores baseados em código para monitoramento contínuo