Juízes do LLM
Visão geral
Os juízes do LLM são um tipo de avaliador do MLflow que usa grandes modelos de linguagem para avaliação de qualidade. Enquanto os avaliadores baseados em código usam lógica programática, os juízes aproveitam as capacidades de raciocínio dos LLMs para fazer avaliações de qualidade para critérios como utilidade, relevância, segurança e muito mais.
Pense em um juiz como um assistente AI especializado em avaliação de qualidade. Ele pode avaliar as entradas e saídas do seu aplicativo e até mesmo explorar todo o rastreamento de execução para fazer avaliações com base nos critérios que você definir. Por exemplo, um juiz pode entender que give me healthy food options e food to keep me fit são consultas semelhantes.
Embora os juízes possam ser usados como APIs independentes, eles devem ser encapsulados em pontuadores personalizados para uso pelo Evaluation Harness e pelo serviço de monitoramento de produção.
Quando usar juízes
Use juízes quando precisar avaliar entradas ou saídas em linguagem simples:
- Correção semântica : " Isso responde à pergunta corretamente? "
 - Estilo e tom : " Isso é apropriado para a voz da nossa marca? "
 - Segurança e compliance : "Isso está de acordo com nossas diretrizes de conteúdo?"
 - Qualidade relativa : " Qual resposta é mais útil? "
 
Em vez disso, use pontuadores personalizados baseados em código para:
- Correspondência exata : verificação de palavras-chave específicas
 - Validação de formato : Estrutura JSON, limites de comprimento
 - desempenho métricas : Latência, uso de tokens
 
juízes LLM integrados
O MLflow fornece juízes validados por pesquisas para casos de uso comuns:
from mlflow.genai.scorers import (
    Safety,                  # Content safety
    RelevanceToQuery,        # Query relevance
    RetrievalGroundedness,   # RAG grounding
    Correctness,             # Factual accuracy
    RetrievalSufficiency,    # Retrieval quality
    Guidelines,              # Custom pass/fail criteria
    ExpectationsGuidelines   # Example-specific pass/fail criteria
)
Consulte a referência de juízes integrados para obter documentação detalhada.
Juízes LLM personalizados
Além dos juízes integrados, MLflow facilita a criação dos seus próprios juízes com prompts e instruções personalizados.
Os juízes LLM personalizados são úteis quando você precisa definir tarefas de avaliação especializadas, precisa de mais controle sobre notas ou pontuações (não apenas aprovação/reprovação), ou você precisa validar se seu agente tomou decisões apropriadas e executou operações corretamente para seu caso de uso específico.
Saiba mais sobre como criar juízes com prompts personalizados
Precisão do juiz
A Databricks melhora continuamente a qualidade dos juízes por meio de:
- Validação de pesquisa contra o julgamento de especialistas humanos
 - métricas de acompanhamento : Kappa de Cohen, acurácia, escore F1
 - Testes diversificados em conjuntos de dados acadêmicos e do mundo real
 
Para obter detalhes, consulte os blogsDatabricks sobre aprimoramentos do juiz LLM.
informações sobre os modelos que alimentam o site LLM judges
- Os juízes do LLM podem utilizar serviços de terceiros para avaliar suas aplicações GenAI, incluindo o Azure OpenAI operado pela Microsoft.
 - Para o Azure OpenAI, a Databricks optou por não utilizar o Abuse Monitoring, portanto nenhum prompt ou resposta é armazenado com o Azure OpenAI.
 - Para os espaços de trabalho da União Europeia (UE), os juízes do LLM utilizam modelos hospedados na UE. Todas as outras regiões utilizam modelos hospedados nos EUA.
 - Desabilitar o recurso AI alimentado por parceiros impede que o juiz LLM chame modelos alimentados por parceiros. Você ainda pode usar juízes do LLM fornecendo seu próprio modelo.
 - Os juízes do LLM têm o objetivo de ajudar os clientes a avaliar seus agentes/aplicativos GenAI, e os resultados dos juízes do LLM não devem ser usados para treinar, melhorar ou ajustar um LLM.
 
Próximas etapas
Guia de instruções
- Use juízes LLM integrados para tarefas de avaliação comuns
 - Crie juízes LLM personalizados para tarefas de avaliação especializadas ou complexas
 
Conceitos
- Referência de juízes integrados - Documentação detalhada de todos os juízes integrados
 - Pontuadores - Como os juízes se integram ao sistema de avaliação