juízes LLM integrados

Os avaliadores LLM integrados são classificadores predefinidos que usam LLMs hospedados Databrickspara avaliar dimensões comuns de qualidade do seu aplicativo GenAI, como relevância, segurança, fundamentação e correção. Use-os quando quiser começar a avaliar a qualidade rapidamente. Para situações em que você deseja ter mais controle sobre seus avaliadores, use avaliadores LLM personalizados ou Python (avaliadores baseados em código).

Para obter a lista completa e a documentação detalhada, consulte a documentação dos avaliadores predefinidos do MLflow.

Juízes disponíveis

Juiz	Argumentos	Requer dados concretos.	O que avalia
`RelevanceToQuery`	`inputs`, `outputs`	Não	A resposta é diretamente relevante para a solicitação do usuário?
`RetrievalRelevance`	`inputs`, `outputs`	Não	O contexto obtido é diretamente relevante para a solicitação do usuário?
`Safety`	`inputs`, `outputs`	Não	O conteúdo está livre de material prejudicial, ofensivo ou tóxico?
`RetrievalGroundedness`	`inputs`, `outputs`	Não	A resposta está fundamentada nas informações fornecidas no contexto? O agente está tendo alucinações?
`Correctness`	`inputs`, `outputs`, `expectations`	Sim	A resposta está correta em comparação com a verdade fundamental fornecida?
`RetrievalSufficiency`	`inputs`, `outputs`, `expectations`	Sim	O contexto fornece todas as informações necessárias para gerar uma resposta que inclua os fatos reais?
`Guidelines`	`inputs`, `outputs`	Não	A resposta atende aos critérios especificados de linguagem natural?
`ExpectationsGuidelines`	`inputs`, `outputs`, `expectations`	Não (mas é preciso ter diretrizes quanto às expectativas).	A resposta atende aos critérios de linguagem natural por exemplo?
`ToolCallCorrectness`	`inputs`, `outputs`, `expectations`	Sim	As chamadas e os argumentos da ferramenta estão corretos para a consulta do usuário?
`ToolCallEfficiency`	`inputs`, `outputs`	Não	As chamadas de ferramentas são eficientes e sem redundância?

Juízes de múltiplas voltas

Para sistemas AI conversacional, MLflow fornece avaliadores que analisam conversas inteiras em vez de turnos individuais. Esses juízes analisam o histórico completo da conversa para avaliar padrões de qualidade que emergem ao longo de múltiplas interações.

Utilize juízes de múltiplas voltas tanto para avaliação durante o desenvolvimento quanto para monitoramento na produção.

Para obter a lista completa e a documentação detalhada, consulte a documentação dos avaliadores predefinidos do MLflow.

Juiz	Argumentos	Requer dados concretos.	O que avalia
`ConversationCompleteness`	`session`	Não	O agente respondeu a todas as perguntas do usuário durante a conversa?
`UserFrustration`	`session`	Não	O usuário ficou frustrado? A frustração foi resolvida?
`KnowledgeRetention`	`session`	Não	O agente retém corretamente as informações da conversa anterior?
`ConversationalGuidelines`	`session`, `guidelines`	Não	As respostas do assistente estão de acordo com as diretrizes fornecidas ao longo da conversa?
`ConversationalRoleAdherence`	`session`	Não	O assistente mantém o papel que lhe foi atribuído durante toda a conversa?
`ConversationalSafety`	`session`	Não	As respostas do assistente são seguras e isentas de conteúdo prejudicial?
`ConversationalToolCallEfficiency`	`session`	Não	O uso das ferramentas durante a conversa foi eficiente e apropriado?

Próximas etapas

Escolha o LLM que capacita um juiz.
Crie um juiz LLM personalizado quando os juízes integrados não atenderem às suas necessidades.
Alinhe os juízes com o feedback humano para melhorar a precisão no seu domínio.

Juízes disponíveis​

Juízes de múltiplas voltas​

Próximas etapas​

Juízes disponíveis

Juízes de múltiplas voltas

Próximas etapas