Obter feedback sobre a qualidade de um aplicativo agêntico (MLflow 2)

info

Visualização

Esse recurso está em Public Preview.

important

A Databricks recomenda que o senhor use a versão atual do aplicativo Review.

Este artigo mostra como usar o aplicativo de avaliação Databricks para obter feedback de avaliadores humanos sobre a qualidade do seu agenteAI. Ele abrange o seguinte:

Como implantar o aplicativo de avaliação.
Como os revisores usam o aplicativo para fornecer feedback sobre as respostas do aplicativo agente.
Como os especialistas podem analisar os bate-papos de registros para dar sugestões de melhoria e outros comentários usando o aplicativo.

O que acontece em uma avaliação humana?

O aplicativo de revisão da Databricks apresenta o LLM em um ambiente em que as partes interessadas especializadas podem interagir com ele - em outras palavras, conversar, fazer perguntas, fornecer feedback e assim por diante. O aplicativo de avaliação logs todas as perguntas, respostas e feedback em uma tabela de inferência para que o senhor possa analisar melhor o desempenho do LLM. Dessa forma, o aplicativo de avaliação ajuda a garantir a qualidade e a segurança das respostas que seu aplicativo fornece.

As partes interessadas podem conversar com o bot do aplicativo e fornecer feedback sobre essas conversas, ou fornecer feedback sobre o histórico logs, rastreamentos selecionados ou resultados do agente.

Requisitos

As tabelas de inferência devem estar ativadas no endpoint que está servindo o agente.
Cada avaliador humano deve ter acesso ao aplicativo de avaliação workspace ou estar sincronizado com o seu Databricks account com SCIM. Consulte a próxima seção, Configurar permissões para usar o aplicativo de avaliação.
Os desenvolvedores devem instalar o SDK do databricks-agents para definir as permissões e configurar o aplicativo de revisão.
Python
```
%pip install databricks-agents
dbutils.library.restartPython()
```

Configurar permissões para usar o aplicativo de avaliação

nota

Os revisores humanos não precisam ter acesso ao site workspace para usar o aplicativo de revisão.

O senhor pode dar acesso ao aplicativo de avaliação a qualquer usuário em seu site Databricks account, mesmo que ele não tenha acesso ao site workspace que contém o aplicativo de avaliação.

Para usuários que não têm acesso workspace ao, um administrador do account usa accounto SCIM provisionamento de nível para sincronizar usuários e grupos automaticamente do provedor de identidade para o Databricks account. O senhor também pode registrar manualmente esses usuários e grupos para dar-lhes acesso quando configurar identidades em Databricks. Consulte Sincronizar usuários e grupos do seu provedor de identidade usando o SCIM.
Para os usuários que já têm acesso ao site workspace que contém o aplicativo de revisão, não é necessária nenhuma configuração adicional.

O exemplo de código a seguir mostra como conceder aos usuários permissão para acessar o aplicativo de avaliação de um agente. O parâmetro users recebe uma lista de endereços email.

Python
from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Para revisar um chat log, o usuário deve ter a permissão CAN_REVIEW.

implantado o aplicativo de revisão

Quando o senhor implanta um agente usando agents.deploy(), o aplicativo de revisão é automaticamente ativado e implantado. A saída do comando mostra o URL do aplicativo de revisão. Para obter informações sobre o agente implantado, consulte implantado an agent for generative AI applications.

link para o aplicativo de revisão da saída do comando Notebook

Se você perder o link para a implantação, poderá encontrá-lo usando list_deployments().

Python
from databricks import agents

deployments = agents.list_deployments()
deployments

Revise a IU do aplicativo

Para abrir o aplicativo de avaliação, clique no URL fornecido. A interface do usuário do aplicativo de avaliação tem três guias na barra lateral esquerda:

Instruções Exibe as instruções para o revisor. Consulte Fornecer instruções aos revisores.
Chats para avaliação Exibe logs das interações dos avaliadores com o aplicativo para que os especialistas possam avaliar. Veja a avaliação de especialistas do logs a partir das interações de outros usuários com o aplicativo.
Teste o bot Permite que os revisores conversem com o aplicativo e enviem avaliações de suas respostas. Consulte Converse com o aplicativo e envie avaliações.

Quando você abre o aplicativo de avaliação, a página de instruções é exibida.

Para conversar com o bot, clique em começar a revisar ou selecione Testar o bot na barra lateral esquerda. Consulte Converse com o aplicativo e envie avaliações para obter mais detalhes.
Para revisar o chat logs que foi disponibilizado para sua revisão, selecione Chats to review (Chats para revisão ) na barra lateral. Para obter detalhes, consulte a avaliação especializada do logs a partir das interações de outros usuários com o aplicativo. Para saber como tornar o chat logs disponível no aplicativo de avaliação, consulte Tornar o chat logs disponível para avaliação por avaliadores especializados.

revise a tela de abertura do aplicativo

Forneça instruções aos revisores

Para fornecer texto personalizado para as instruções exibidas aos revisores, use o código a seguir:

Python
from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Uma captura de tela das instruções do aplicativo de revisão especificou o exemplo em Python.

Converse com o aplicativo e envie avaliações

Para conversar com o aplicativo e enviar avaliações:

Clique em Testar o bot na barra lateral esquerda.
Digite sua pergunta na caixa e pressione Return ou Enter no teclado, ou clique na seta na caixa.

O aplicativo exibe a resposta à sua pergunta e as fontes usadas para encontrar a resposta.

nota

Se o agente usar um retriever, a fonte de dados será identificada pelo campo doc_uri definido pelo esquema do retriever definido durante a criação do agente. Consulte Definir o esquema do retriever para garantir a compatibilidade com o MLflow.

Analise a resposta do aplicativo e selecione Sim , Não ou Não sei.
O aplicativo solicita informações adicionais. Marque as caixas apropriadas ou digite seus comentários no campo fornecido.
Você também pode editar a resposta diretamente para fornecer uma resposta melhor. Para editar a resposta, clique em Editar resposta , faça suas alterações na caixa de diálogo e clique em Salvar , conforme mostrado no vídeo a seguir.
Clique em Concluído para salvar seus comentários.
Continue fazendo perguntas para fornecer feedback adicional.

O diagrama a seguir ilustra esse fluxo de trabalho.

Usando o aplicativo de avaliação, o revisor conversa com o aplicativo do agente.
Usando o aplicativo de avaliação, o revisor fornece feedback sobre as respostas do aplicativo.
Todas as solicitações, respostas e feedback são registros em tabelas de inferência.

executar o aplicativo de avaliação no qual os especialistas conversam com o aplicativo autêntico e fornecem feedback.

Disponibilizar o chat logs para avaliação por revisores especializados

Quando um usuário interage com o aplicativo usando a API REST ou o aplicativo de avaliação, todas as solicitações, respostas e feedback adicional são salvos em tabelas de inferência. As tabelas de inferência estão localizadas no mesmo catálogo e esquema do Unity Catalog em que o modelo foi registrado e são denominadas <model_name>_payload, <model_name>_payload_assessment_logs e <model_name>_payload_request_logs. Para obter mais informações sobre essas tabelas, incluindo esquemas, consulte Monitorar agentes implantados.

Para carregar esses logs no aplicativo de revisão para avaliação por revisores especializados, o senhor deve primeiro localizar o site request_id e ativar as revisões para esse site request_id da seguinte forma:

Localize os request_ids a serem revisados na tabela de inferência <model_name>_payload_request_logs. A tabela de inferência está no mesmo catálogo e esquema do Unity Catalog em que o modelo foi registrado.

Use um código semelhante ao seguinte para carregar os logs de revisão no aplicativo de revisão:

Python
from databricks import agents

agents.enable_trace_reviews(
  model_name=model_fqn,
  request_ids=[
      "52ee973e-0689-4db1-bd05-90d60f94e79f",
      "1b203587-7333-4721-b0d5-bba161e4643a",
      "e68451f4-8e7b-4bfc-998e-4bda66992809",
  ],
)

A célula de resultado inclui um link para o aplicativo de revisão com os logs selecionados carregados para revisão.

Aplicativo de avaliação com o chat logs carregado para avaliação de especialistas

Análise especializada do site logs a partir das interações de outros usuários com o aplicativo

Para revisar logs de chats anteriores, o logs deve estar habilitado para revisão. Consulte Tornar o bate-papo logs disponível para avaliação por revisores especializados.

Na barra lateral esquerda do aplicativo de avaliação, selecione Conversas para revisar. As solicitações habilitadas são exibidas.
Clique em uma solicitação para exibi-la para análise.
Analise a solicitação e a resposta. O aplicativo também mostra as fontes usadas como referência. Você pode clicar neles para revisar a referência e fornecer feedback sobre a relevância da fonte.
Para fornecer feedback sobre a qualidade da resposta, selecione Sim , Não ou Não sei.
O aplicativo solicita informações adicionais. Marque as caixas apropriadas ou digite seus comentários no campo fornecido.
Você também pode editar a resposta diretamente para fornecer uma resposta melhor. Para editar a resposta, clique em Editar resposta , faça suas alterações na caixa de diálogo e clique em Salvar . Consulte Converse com o aplicativo e envie avaliações para um vídeo que mostre o processo.
Clique em Concluído para salvar seus comentários.

O diagrama a seguir ilustra esse fluxo de trabalho.

Usando o aplicativo de avaliação ou o aplicativo personalizado, os revisores conversam com o aplicativo do agente.
Todas as solicitações e respostas são registros em tabelas de inferência.
O desenvolvedor do aplicativo usa enable_trace_reviews([request_id]) (onde request_id é da tabela de inferência <model_name>_payload_request_logs) para postar o bate-papo logs para revisar o aplicativo.
Usando o aplicativo de análise, o especialista analisa o site logs e fornece feedback. O feedback de especialistas é registrado em tabelas de inferência.

Execute uma revisão de rastreamento na qual os revisores interagem com o aplicativo de revisão ou com a API REST para apresentar feedback.

Use `mlflow.evaluate()` na solicitação logs table

O Notebook a seguir ilustra como usar o logs do aplicativo de revisão como entrada para uma execução de avaliação usando mlflow.evaluate().

Avaliação da execução a pedido logs Notebook

Open notebook in new tab

O que acontece em uma avaliação humana?​

Requisitos​

Configurar permissões para usar o aplicativo de avaliação​

implantado o aplicativo de revisão​

Revise a IU do aplicativo​

Forneça instruções aos revisores​

Converse com o aplicativo e envie avaliações​

Disponibilizar o chat logs para avaliação por revisores especializados​

Análise especializada do site logs a partir das interações de outros usuários com o aplicativo​

Use mlflow.evaluate() na solicitação logs table​