Obter feedback sobre a qualidade de um aplicativo autêntico
Prévia
Este recurso está em Prévia pública.
Este artigo mostra como usar o aplicativo de revisão Databricks para obter feedback de avaliadores humanos sobre a qualidade do seu aplicativo autêntico.
O Mosaic AI Agent Evaluation possibilita que os desenvolvedores avaliem de forma rápida e confiável a qualidade, o custo e a latência de seu aplicativo de IA generativa. Os recursos de avaliação de agentes são unificados entre as fases de desenvolvimento, preparação e produção do ciclo de vida do LLMops.
O Agent Evaluation faz parte da nossa oferta Mosaic AI Agent Framework, projetada para ajudar os desenvolvedores a implementar aplicativos de IA generativa de alta qualidade. Aplicativos de alta qualidade são aqueles em que o resultado é avaliado como preciso, seguro e governado.
O que acontece em uma avaliação humana?
O aplicativo de revisão permite que o senhor obtenha feedback das partes interessadas especializadas sobre o seu aplicativo. Isso ajuda a garantir a qualidade e a segurança das respostas fornecidas.
Há três maneiras de coletar feedback utilizando o aplicativo de avaliação. Partes interessadas especializadas:
Converse com o bot do aplicativo e apresente feedback sobre essas conversas.
Apresente feedback sobre logs históricos de outros usuários.
Apresente feedback sobre quaisquer rastreamentos curados e saídas de agentes.
No aplicativo de revisão da Databricks, o LLM é apresentado em um ambiente em que as partes interessadas especializadas podem interagir com ele. Em outras palavras, conversar, fazer perguntas e assim por diante.
Requisitos
Para usar o aplicativo de revisão para avaliação humana de um aplicativo agêntico, o senhor precisa ter as seguintes configurações:
As tabelas de inferência devem estar ativadas no endpoint que está servindo o agente. Isso permite que o aplicativo de análise colete e registre dados sobre o aplicativo agêntico.
Acesso ao workspace do aplicativo de revisão para cada revisor humano. Consulte a próxima seção, Configurar permissões de aplicativo de revisão.
Configure permissões para o workspace do aplicativo de revisão
Se seus revisores já tiverem acesso ao espaço de trabalho que contém o aplicativo de avaliação, você não precisa fazer nada.
Se os revisores ainda não tiverem acesso, os administradores da conta poderão utilizar o provisionamento SCIM em nível de conta para sincronizar usuários e grupos automaticamente do seu provedor de identidade para sua conta do Databricks. Também é possível registrar manualmente esses usuários e grupos configurando identidades no Databricks. Isso possibilita que eles sejam incluídos como revisores qualificados. Consulte Sincronizar usuários e grupos do seu provedor de identidade.
from databricks.agents import set_permissions
from databricks.agents.entities import PermissionLevel
set_permissions(model_fqn, ["user.name@databricks.com"], PermissionLevel.CAN_QUERY)
Para os novos clientes do Public Preview que enfrentarem problemas para dar aos avaliadores acesso ao aplicativo de avaliação, entre em contato com a equipe da conta do DB para ativar esse recurso.
Fornecer instruções aos revisores
Escreva um texto personalizado para as instruções exibidas para os revisores e envie-o conforme mostrado no exemplo de código a seguir:
from databricks.agents import set_review_instructions, get_review_instructions
set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
get_review_instructions(uc_model_name)
![Uma captura de tela das instruções do aplicativo de revisão especificou o exemplo em Python.](../../_images/human-eval-instructions.png)
Visão geral da interface do usuário do aplicativo de revisão
O fluxo de trabalho básico de uma avaliação especializada no aplicativo de avaliação:
Abra o URL do aplicativo de avaliação fornecido.
Revisar conversas preenchidas.
Converse com o bot e envie avaliações de suas respostas.
Opções para realizar uma avaliação com as partes interessadas
Especialistas conversam com o aplicativo de avaliação
Para utilizar essa opção, chame `deploy_model (...) ` e defina as permissões corretas. O diagrama a seguir mostra o funcionamento dessa opção.
![executar o aplicativo de avaliação no qual os especialistas conversam com o aplicativo autêntico e fornecem feedback.](../../_images/option-1-review-workflow.png)
As partes interessadas especializadas conversam com o aplicativo agêntico
Feedback sobre a resposta
Solicitação/resposta de aplicativo
Solicitação/resposta do aplicativo + rastreamento + feedback
Especialistas revisam registros
Para usar essa opção, primeiro implante seu aplicativo agêntico usando `implantado(...)`. Depois que os usuários interagem com a API REST ou com o aplicativo de avaliação, o senhor pode carregar esses rastreamentos de volta no aplicativo de avaliação usando o código a seguir.
from databricks.agents import enable_trace_reviews
enable_trace_reviews(
model_name=model_fqn,
request_ids=[
"52ee973e-0689-4db1-bd05-90d60f94e79f",
"1b203587-7333-4721-b0d5-bba161e4643a",
"e68451f4-8e7b-4bfc-998e-4bda66992809",
],
)
Use valores da coluna request_id
da tabela de registros de solicitações.
![Execute uma revisão de rastreamento na qual os revisores interagem com o aplicativo de revisão ou com a API REST para apresentar feedback.](../../_images/option-2-review-workflow.png)
enable_trace_reviews([request_id])
Chats carregados
Os especialistas das partes interessadas conversam com o aplicativo
Feedback sobre a resposta
Solicitações de uso de aplicativos front-end ou de uso de aplicativos de revisão
Solicitação/resposta de aplicativo
Solicitação/resposta do aplicativo + rastreamento + feedback