Pular para o conteúdo principal

Avaliadores baseados em LLM

Visão geral

Os juízes são os blocos de construção SDK/API do MLflow para avaliação de qualidade baseada em LLM. Cada juiz usa um modelo LLM hospedado na Databricks, especialmente ajustado e projetado para realizar avaliações de qualidade do GenAI.

Pense em um juiz como um assistente do AI especializado em avaliação de qualidade - ele lê os resultados do seu aplicativo e faz avaliações com base nos critérios que o senhor define. Por exemplo, eles podem entender que give me healthy food options é a mesma consulta e food to keep me fit são consultas muito semelhantes.

important

Embora os juízes possam ser usados como APIs autônomas, eles devem ser agrupados em Scorers para serem usados pelo Evaluation Harness e pelo serviço de monitoramento de produção.

Quando usar juízes

Use juízes quando precisar avaliar entradas ou saídas em linguagem simples:

  • Correção semântica : " Isso responde à pergunta corretamente? "
  • Estilo e tom : " Isso é apropriado para a voz da nossa marca? "
  • Segurança e compliance : "Isso está de acordo com nossas diretrizes de conteúdo?"
  • Qualidade relativa : " Qual resposta é mais útil? "

Em vez disso, use pontuadores personalizados baseados em código para:

  • Correspondência exata : verificação de palavras-chave específicas
  • Validação de formato : Estrutura JSON, limites de comprimento
  • desempenho métricas : Latência, uso de tokens

Mergulhe mais profundamente nos juízes

Para obter informações detalhadas sobre juízes específicos:

Juízes predefinidos

O MLflow fornece juízes validados por pesquisas para casos de uso comuns:

Python
from mlflow.genai.judges import (
is_safe, # Content safety
is_relevant, # Query relevance
is_grounded, # RAG grounding
is_correct, # Factual accuracy
is_context_sufficient # Retrieval quality
)

Consulte a referência predefinida dos juízes para obter a documentação detalhada.

Juízes personalizados

Crie juízes específicos do domínio usando duas abordagens:

  1. Baseado em diretrizes (ponto de partida recomendado) — Critérios de aprovação/reprovação em linguagem natural que são fáceis de explicar às partes interessadas. Ideal para compliance verificações, guia de estilo ou inclusão/exclusão de informações.

  2. Baseado em solicitações - Personalização completa de solicitações para avaliações complexas. Use quando precisar de vários valores de saída (por exemplo, " great ", " ok ", " bad ") ou critérios que não possam ser expressos como diretrizes de aprovação/reprovação.

Precisão do juiz

A Databricks melhora continuamente a qualidade dos juízes por meio de:

  • Validação de pesquisa contra o julgamento de especialistas humanos
  • métricas de acompanhamento : Kappa de Cohen, acurácia, escore F1
  • Testes diversificados em conjuntos de dados acadêmicos e do mundo real

Para obter detalhes, consulte os blogsDatabricks sobre aprimoramentos do juiz LLM.

informações sobre os modelos que alimentam o site LLM judges

  • Os juízes do LLM podem utilizar serviços de terceiros para avaliar suas aplicações GenAI, incluindo o Azure OpenAI operado pela Microsoft.
  • Para o Azure OpenAI, a Databricks optou por não utilizar o Abuse Monitoring, portanto nenhum prompt ou resposta é armazenado com o Azure OpenAI.
  • Para os espaços de trabalho da União Europeia (UE), os juízes do LLM utilizam modelos hospedados na UE. Todas as outras regiões utilizam modelos hospedados nos EUA.
  • AI A desativação do recurso assistido por parceiros impede que o LLM juiz do chame os modelos alimentados por parceiros.
  • Os juízes do LLM têm o objetivo de ajudar os clientes a avaliar seus agentes/aplicativos GenAI, e os resultados dos juízes do LLM não devem ser usados para treinar, melhorar ou ajustar um LLM.

Próximas etapas

Guia de instruções

Conceitos