conjunto de dados de avaliação gerenciar - guia do usuário especialista no assunto (SME)
Visualização
Esse recurso está em Private Preview. Para experimentar, entre em contato com o seu contato da Databricks.
Esta página descreve como os especialistas no assunto (SMEs) usam a UI para gerenciar avaliações. A UI de avaliações do gerenciar foi projetada para ajudar as PMEs a fazer o seguinte:
- Analise um conjunto de bate-papos que testam diferentes aspectos da funcionalidade do agente AI.
- Forneça informações para ajudar o juiz do AI a avaliar as respostas do agente do AI a essas perguntas.
Para obter mais informações sobre o Mosaic AI Agent Evaluation e os AI juízes que ele fornece, consulte Mosaic AI Agent Evaluation (MLflow 2) e How quality, cost, and latency are assessed by Agent Evaluation (MLflow 2).
Analise os bate-papos
A primeira etapa é analisar um conjunto de bate-papos que serão usados para testar o agente AI. Esses bate-papos formam a base de um conjunto de avaliação. Os bate-papos são fornecidos pelo desenvolvedor para testar o agente AI.
Quando você clica no link para o aplicativo, uma tela semelhante à seguinte é exibida:

Você pode ver o progresso geral da análise. A barra de progresso mostra o número de conversas que você revisou e o número total de conversas no conjunto.
-
Clique em começar review .
-
Uma nova página é aberta, mostrando a interface de bate-papo no lado esquerdo e uma lista de perguntas para você revisar no lado direito.

-
Se a solicitação de bate-papo for sintetizada a partir de um documento, o senhor poderá clicar no cartão do documento de origem para view o conteúdo do documento de origem.

-
Responda a todas as perguntas no lado direito da tela. Para obter mais detalhes, consulte Revisar um bate-papo. As alterações feitas são salvas automaticamente.
-
Quando você terminar de revisar este bate-papo:
- Ele se move automaticamente para o próximo bate-papo, se houver um.
- Para retornar à página inicial, clique
no canto superior esquerdo da tela.
- Para navegar até o bate-papo anterior ou o próximo, clique em Anterior ou Próximo no canto superior direito da página.
Avalie um bate-papo
Essa é uma boa pergunta?
Quando o senhor analisa um chat, a primeira etapa é decidir se a pergunta é um bom teste dos recursos do agente AI.

Se você acha que a pergunta não é um bom teste, clique em Não para rejeitá-la e pular o restante das etapas de revisão.
Revise os fatos esperados
Nessa etapa, sua tarefa é revisar e editar a lista de fatos esperados que o agente do AI deve usar para responder à pergunta.

- Revise os fatos existentes, se houver algum. Você pode editar o texto diretamente, se necessário. Para remover um fato, clique em [adicionar capa de tela do ícone da lixeira].
- Para adicionar um novo fato, clique em Adicionar fato . Para obter diretrizes importantes sobre como fornecer os fatos esperados, consulte as diretrizes
expected_facts. - Ao concluir sua análise, clique em Parece bom .