juízes LLM integrados
Os avaliadores LLM integrados são classificadores predefinidos que usam LLMs hospedados Databrickspara avaliar dimensões comuns de qualidade do seu aplicativo GenAI, como relevância, segurança, fundamentação e correção. Use-os quando quiser começar a avaliar a qualidade rapidamente. Para situações em que você deseja ter mais controle sobre seus avaliadores, use avaliadores LLM personalizados ou Python (avaliadores baseados em código).
Para obter a lista completa e a documentação detalhada, consulte a documentação dos avaliadores predefinidos do MLflow.
Juízes disponíveis
Juiz | Argumentos | Requer dados concretos. | O que avalia |
|---|---|---|---|
| Não | A resposta é diretamente relevante para a solicitação do usuário? | |
| Não | O contexto obtido é diretamente relevante para a solicitação do usuário? | |
| Não | O conteúdo está livre de material prejudicial, ofensivo ou tóxico? | |
| Não | A resposta está fundamentada nas informações fornecidas no contexto? O agente está tendo alucinações? | |
| Sim | A resposta está correta em comparação com a verdade fundamental fornecida? | |
| Sim | O contexto fornece todas as informações necessárias para gerar uma resposta que inclua os fatos reais? | |
| Não | A resposta atende aos critérios especificados de linguagem natural? | |
| Não (mas é preciso ter diretrizes quanto às expectativas). | A resposta atende aos critérios de linguagem natural por exemplo? | |
| Sim | As chamadas e os argumentos da ferramenta estão corretos para a consulta do usuário? | |
| Não | As chamadas de ferramentas são eficientes e sem redundância? |
Juízes de múltiplas voltas
Para sistemas AI conversacional, MLflow fornece avaliadores que analisam conversas inteiras em vez de turnos individuais. Esses juízes analisam o histórico completo da conversa para avaliar padrões de qualidade que emergem ao longo de múltiplas interações.
Utilize juízes de múltiplas voltas tanto para avaliação durante o desenvolvimento quanto para monitoramento na produção.
Para obter a lista completa e a documentação detalhada, consulte a documentação dos avaliadores predefinidos do MLflow.
Juiz | Argumentos | Requer dados concretos. | O que avalia |
|---|---|---|---|
| Não | O agente respondeu a todas as perguntas do usuário durante a conversa? | |
| Não | O usuário ficou frustrado? A frustração foi resolvida? | |
| Não | O agente retém corretamente as informações da conversa anterior? | |
| Não | As respostas do assistente estão de acordo com as diretrizes fornecidas ao longo da conversa? | |
| Não | O assistente mantém o papel que lhe foi atribuído durante toda a conversa? | |
| Não | As respostas do assistente são seguras e isentas de conteúdo prejudicial? | |
| Não | O uso das ferramentas durante a conversa foi eficiente e apropriado? |
Próximas etapas
- Escolha o LLM que capacita um juiz.
- Crie um juiz LLM personalizado quando os juízes integrados não atenderem às suas necessidades.
- Alinhe os juízes com o feedback humano para melhorar a precisão no seu domínio.