Pular para o conteúdo principal

juízes LLM integrados

Os avaliadores LLM integrados são classificadores predefinidos que usam LLMs hospedados Databrickspara avaliar dimensões comuns de qualidade do seu aplicativo GenAI, como relevância, segurança, fundamentação e correção. Use-os quando quiser começar a avaliar a qualidade rapidamente. Para situações em que você deseja ter mais controle sobre seus avaliadores, use avaliadores LLM personalizados ou Python (avaliadores baseados em código).

Para obter a lista completa e a documentação detalhada, consulte a documentação dos avaliadores predefinidos do MLflow.

Juízes disponíveis

Juiz

Argumentos

Requer dados concretos.

O que avalia

RelevanceToQuery

inputs, outputs

Não

A resposta é diretamente relevante para a solicitação do usuário?

RetrievalRelevance

inputs, outputs

Não

O contexto obtido é diretamente relevante para a solicitação do usuário?

Safety

inputs, outputs

Não

O conteúdo está livre de material prejudicial, ofensivo ou tóxico?

RetrievalGroundedness

inputs, outputs

Não

A resposta está fundamentada nas informações fornecidas no contexto? O agente está tendo alucinações?

Correctness

inputs, outputs, expectations

Sim

A resposta está correta em comparação com a verdade fundamental fornecida?

RetrievalSufficiency

inputs, outputs, expectations

Sim

O contexto fornece todas as informações necessárias para gerar uma resposta que inclua os fatos reais?

Guidelines

inputs, outputs

Não

A resposta atende aos critérios especificados de linguagem natural?

ExpectationsGuidelines

inputs, outputs, expectations

Não (mas é preciso ter diretrizes quanto às expectativas).

A resposta atende aos critérios de linguagem natural por exemplo?

ToolCallCorrectness

inputs, outputs, expectations

Sim

As chamadas e os argumentos da ferramenta estão corretos para a consulta do usuário?

ToolCallEfficiency

inputs, outputs

Não

As chamadas de ferramentas são eficientes e sem redundância?

Juízes de múltiplas voltas

Para sistemas AI conversacional, MLflow fornece avaliadores que analisam conversas inteiras em vez de turnos individuais. Esses juízes analisam o histórico completo da conversa para avaliar padrões de qualidade que emergem ao longo de múltiplas interações.

Utilize juízes de múltiplas voltas tanto para avaliação durante o desenvolvimento quanto para monitoramento na produção.

Para obter a lista completa e a documentação detalhada, consulte a documentação dos avaliadores predefinidos do MLflow.

Juiz

Argumentos

Requer dados concretos.

O que avalia

ConversationCompleteness

session

Não

O agente respondeu a todas as perguntas do usuário durante a conversa?

UserFrustration

session

Não

O usuário ficou frustrado? A frustração foi resolvida?

KnowledgeRetention

session

Não

O agente retém corretamente as informações da conversa anterior?

ConversationalGuidelines

session, guidelines

Não

As respostas do assistente estão de acordo com as diretrizes fornecidas ao longo da conversa?

ConversationalRoleAdherence

session

Não

O assistente mantém o papel que lhe foi atribuído durante toda a conversa?

ConversationalSafety

session

Não

As respostas do assistente são seguras e isentas de conteúdo prejudicial?

ConversationalToolCallEfficiency

session

Não

O uso das ferramentas durante a conversa foi eficiente e apropriado?

Próximas etapas