Avaliadores baseados em LLM
Visão geral
Os juízes são os blocos de construção SDK/API do MLflow para avaliação de qualidade baseada em LLM. Cada juiz usa um modelo LLM hospedado na Databricks, especialmente ajustado e projetado para realizar avaliações de qualidade do GenAI.
Pense em um juiz como um assistente do AI especializado em avaliação de qualidade - ele lê os resultados do seu aplicativo e faz avaliações com base nos critérios que o senhor define. Por exemplo, eles podem entender que give me healthy food options
é a mesma consulta e food to keep me fit
são consultas muito semelhantes.
Embora os juízes possam ser usados como APIs autônomas, eles devem ser agrupados em Scorers para serem usados pelo Evaluation Harness e pelo serviço de monitoramento de produção.
Quando usar juízes
Use juízes quando precisar avaliar entradas ou saídas em linguagem simples:
- Correção semântica : " Isso responde à pergunta corretamente? "
- Estilo e tom : " Isso é apropriado para a voz da nossa marca? "
- Segurança e compliance : "Isso está de acordo com nossas diretrizes de conteúdo?"
- Qualidade relativa : " Qual resposta é mais útil? "
Em vez disso, use pontuadores personalizados baseados em código para:
- Correspondência exata : verificação de palavras-chave específicas
- Validação de formato : Estrutura JSON, limites de comprimento
- desempenho métricas : Latência, uso de tokens
Mergulhe mais profundamente nos juízes
Para obter informações detalhadas sobre juízes específicos:
Juízes predefinidos
O MLflow fornece juízes validados por pesquisas para casos de uso comuns:
from mlflow.genai.judges import (
is_safe, # Content safety
is_relevant, # Query relevance
is_grounded, # RAG grounding
is_correct, # Factual accuracy
is_context_sufficient # Retrieval quality
)
Consulte a referência predefinida dos juízes para obter a documentação detalhada.
Juízes personalizados
Crie juízes específicos do domínio usando duas abordagens:
-
Baseado em diretrizes (ponto de partida recomendado) — Critérios de aprovação/reprovação em linguagem natural que são fáceis de explicar às partes interessadas. Ideal para compliance verificações, guia de estilo ou inclusão/exclusão de informações.
-
Baseado em solicitações - Personalização completa de solicitações para avaliações complexas. Use quando precisar de vários valores de saída (por exemplo, " great ", " ok ", " bad ") ou critérios que não possam ser expressos como diretrizes de aprovação/reprovação.
Precisão do juiz
A Databricks melhora continuamente a qualidade dos juízes por meio de:
- Validação de pesquisa contra o julgamento de especialistas humanos
- métricas de acompanhamento : Kappa de Cohen, acurácia, escore F1
- Testes diversificados em conjuntos de dados acadêmicos e do mundo real
Para obter detalhes, consulte os blogsDatabricks sobre aprimoramentos do juiz LLM.
informações sobre os modelos que alimentam o site LLM judges
- Os juízes do LLM podem utilizar serviços de terceiros para avaliar suas aplicações GenAI, incluindo o Azure OpenAI operado pela Microsoft.
- Para o Azure OpenAI, a Databricks optou por não utilizar o Abuse Monitoring, portanto nenhum prompt ou resposta é armazenado com o Azure OpenAI.
- Para os espaços de trabalho da União Europeia (UE), os juízes do LLM utilizam modelos hospedados na UE. Todas as outras regiões utilizam modelos hospedados nos EUA.
- AI A desativação do recurso assistido por parceiros impede que o LLM juiz do chame os modelos alimentados por parceiros.
- Os juízes do LLM têm o objetivo de ajudar os clientes a avaliar seus agentes/aplicativos GenAI, e os resultados dos juízes do LLM não devem ser usados para treinar, melhorar ou ajustar um LLM.
Próximas etapas
Guia de instruções
- Usar pontuadores predefinidos do site LLM que envolvem juízes integrados
- Crie juízes baseados em diretrizes usando critérios de linguagem natural
- Crie juízes personalizados baseados em solicitações para avaliações complexas
Conceitos
- Referência de juízes predefinidos - Documentação detalhada de todos os juízes integrados
- Juízes baseados em diretrizes - Como funciona a avaliação de diretrizes
- Juízes baseados em solicitações - Criação de solicitações de avaliação personalizadas
- Pontuadores - Como os juízes se integram ao sistema de avaliação