Gerenciar avaliações - guia do usuário especialista no assunto (SME)
Prévia
Esse recurso está em Pré-lançamento público.
Esta página descreve como os especialistas no assunto (SMEs) usam a UI para gerenciar avaliações. A UI de avaliações do gerenciar foi projetada para ajudar as PMEs a fazer o seguinte:
Crie um conjunto de perguntas de entrada que testem diferentes aspectos da funcionalidade do agente de IA.
Forneça informações que ajudem o juiz de AI a avaliar as respostas do agente de AI a essas perguntas.
Para obter mais informações sobre o Mosaic AI Agent Evaluation e os juízes de IA que ele fornece, consulte O que é Mosaic AI Agent Evaluation? e Use agent métricas & LLM judges to evaluate app desempenho.
Crie perguntas
O primeiro passo é criar um conjunto de perguntas que serão usadas para testar o agente de AI. Essas perguntas formam a base de um conjunto de avaliação. As perguntas são salvas e podem ser usadas pelo desenvolvedor para testes contínuos do agente de IA.
Quando você clica no link para o aplicativo, uma tela semelhante à seguinte é exibida:
Nessa tela, você pode inserir perguntas diretamente ou fazer com que o aplicativo gere perguntas automaticamente.
Insira uma pergunta diretamente
Digite sua pergunta na caixa e pressione Enter.
Uma nova página é aberta, mostrando a pergunta, a resposta do agente de AI e um campo para o senhor fornecer feedback sobre a resposta ou informações adicionais. Os campos que aparecem no lado direito da tela dependem do modo especificado pelo desenvolvedor. Para obter detalhes sobre os modos possíveis, consulte Avaliar respostas de IA.
A captura de tela mostra um exemplo de página de resposta no modo de resposta de referência.
Insira seus comentários no lado direito da tela. Para obter mais detalhes, consulte Avaliar respostas de IA.
Quando terminar, faça o seguinte:
Para retornar à página inicial, clique em .
Para continuar com a próxima pergunta, se houver uma, clique na seta apontando para a direita na parte superior da página.
Gere perguntas automaticamente
Na página inicial do aplicativo, clique no botão azul Gerar perguntas. O aplicativo seleciona uma página aleatoriamente a partir das informações que foram usadas para ensinar o agente de AI. Uma nova página é aberta, mostrando a página selecionada e várias perguntas sugeridas com base nas informações apresentadas nessa página.
Para salvar uma pergunta proposta, clique em Salvar à direita da pergunta. Você também pode editar diretamente uma pergunta proposta ou clicar em Adicionar pergunta para adicionar a sua.
Quando terminar, clique em Próximo documento para que o aplicativo selecione outra página e gere mais perguntas, ou clique para retornar à página inicial.
Etiquetas de perguntas
O senhor pode usar tags para organizar as perguntas.
Na página inicial do aplicativo, clique nas tags tab.
Clique em para criar uma nova tag.
Na caixa de diálogo, digite um nome para a tag e clique em Create (Criar). A nova tag aparece na lista.
Para renomear ou excluir uma tag existente, clique no menu kebab à direita da tag.
Para aplicar ou remover uma tag, vá até a página da pergunta individual e clique em . No menu suspenso que aparece, clique no nome da tag para alternar seu status.
Avaliar as respostas da IA
Depois de criar um conjunto de perguntas, o próximo passo é avaliar as respostas do agente de AI a essas perguntas. O processo de avaliação das respostas é iterativo. Os passos que o senhor segue dependem do modo que o desenvolvedor especificou. Os modos disponíveis são os seguintes:
Modo de feedback. Marque cada resposta da IA como "polegar para cima" ou "polegar para baixo".
Modo de resposta de referência. Forneça uma resposta de referência para cada pergunta. O juiz da IA usa essa resposta como base para avaliar a resposta gerada pela IA.
Modo de avaliação de notas. Forneça um conjunto de diretrizes que identifique uma resposta correta. O juiz de IA verifica a resposta gerada para garantir que ela atenda às diretrizes especificadas pelo senhor.
Modo de feedback
No modo de feedback, sua tarefa é responder Sim ou Não para indicar se a resposta do agente de IA está correta. Nenhuma interação adicional é possível.
Modo de avaliação de notas
No modo de notas de avaliação, depois de analisar a resposta do agente de AI, o senhor fornece informações que o juiz de AI usa para avaliar o desempenho do agente.
Digite sua entrada na caixa de notas de avaliação no lado direito da tela. Para obter orientações importantes sobre como fornecer informações ao juiz, consulte Dicas para fornecer notas de avaliação.
Clique em Ask IA Judge ou pressione Enter.
O juiz usa as informações que o senhor inseriu para avaliar a resposta. Ele rotula a resposta como Correta ou Incorreta e exibe sua justificativa. Um rótulo de resposta Incorreto ainda fornece informações importantes para o desenvolvedor. Se o senhor e o juiz da IA concordarem que a resposta está incorreta, sua única tarefa é inserir as melhores notas de avaliação possíveis. Se o juiz de IA marcar uma resposta como correta ou incorreta e o senhor não concordar, consulte Se o senhor não concordar com a avaliação do juiz de IA.
Dicas para fornecer notas de avaliação
No modo de notas de avaliação, sua tarefa é escrever diretrizes que o juiz usará para avaliar as respostas do agente de IA. Essas notas devem ser escritas em linguagem direta e inequívoca.
Para especificar fatos que devem ser incluídos para que uma resposta seja correta, use “deve”, da seguinte forma:
"A resposta deve mencionar o Unity Catalog."
Para indicar que um fato nunca deve ser incluído em uma resposta correta, use “não deve”, da seguinte forma:
"A resposta não deve mencionar o Unity Catalog."
Para indicar que um fato está correto, mas não é necessário para que uma resposta seja considerada correta, use “opcionalmente”, da seguinte forma:
"A resposta pode mencionar opcionalmente o Unity Catalog."
Modo de resposta de referência
No modo de resposta de referência, depois de analisar a resposta do agente de AI, o senhor fornece informações que o juiz de AI usa para avaliar o desempenho do agente.
Digite sua entrada na caixa Resposta de referência ou Notas de avaliação no lado direito da tela. Para obter orientações importantes sobre como fornecer informações ao juiz, consulte Dicas para fornecer respostas de referência.
Clique em Ask IA Judge ou pressione Enter.
O juiz usa as informações que o senhor inseriu para avaliar a resposta. Ele rotula a resposta como Correta ou Incorreta e exibe sua justificativa. Um rótulo de resposta Incorreto ainda fornece informações importantes para o desenvolvedor. Se o senhor e o juiz da IA concordarem que a resposta está incorreta, sua única tarefa é inserir a melhor resposta de referência possível. Se o juiz de IA marcar uma resposta como correta ou incorreta e o senhor não concordar, consulte Se o senhor não concordar com a avaliação do juiz de IA.
Dicas para fornecer respostas de referência
No modo de resposta de referência, sua tarefa é escrever a resposta correta para a pergunta. O juiz compara a resposta do agente de IA com a resposta de referência que o senhor forneceu.
Importante
Uma boa resposta de referência deve incluir apenas o conjunto mínimo de fatos necessários para uma resposta correta. Se você copiar uma resposta de outra fonte, certifique-se de editá-la para remover qualquer texto que não seja necessário para que uma resposta seja considerada correta.
Incluir apenas as informações necessárias e deixar de fora as informações que não são estritamente necessárias na resposta permite que a Avaliação de agentes forneça um sinal mais robusto sobre a qualidade do resultado.
Se o senhor não concordar com a avaliação do juiz da IA
Se o juiz do AI marcar uma resposta como correta ou incorreta e o senhor não concordar, o primeiro passo é editar sua resposta de referência ou as notas de avaliação para tentar orientar o juiz a fazer uma avaliação precisa.
Se não for possível fazer com que o juiz concorde com sua avaliação, forneça a melhor resposta de referência ou notas de avaliação que puder e, em seguida, clique em No (Não ) no campo AI Judge Rationale (Justificativa do juiz de IA ). Essa é uma informação útil para o desenvolvedor.