Pular para o conteúdo principal
Página não listada
Esta página não está listada. Mecanismos de busca não armazenarão nenhuma informação, e somente usuários que possuam o link direto poderão acessá-la

(Legacy) Receba feedback sobre a qualidade de um aplicativo agente

info

Visualização

Esse recurso está em Public Preview.

important

A Databricks recomenda que o senhor use a versão atual do aplicativo Review.

Este artigo mostra como usar o aplicativo de avaliação Databricks para obter feedback de avaliadores humanos sobre a qualidade do seu aplicativo autêntico. Ele abrange o seguinte:

  • Como implantar o aplicativo de avaliação.
  • Como os revisores usam o aplicativo para fornecer feedback sobre as respostas do aplicativo agente.
  • Como os especialistas podem analisar os bate-papos de registros para dar sugestões de melhoria e outros comentários usando o aplicativo.

O que acontece em uma avaliação humana?

O aplicativo de revisão da Databricks apresenta o LLM em um ambiente em que as partes interessadas especializadas podem interagir com ele - em outras palavras, conversar, fazer perguntas, fornecer feedback e assim por diante. O aplicativo de avaliação logs todas as perguntas, respostas e feedback em uma tabela de inferência para que o senhor possa analisar melhor o desempenho do LLM. Dessa forma, o aplicativo de avaliação ajuda a garantir a qualidade e a segurança das respostas que seu aplicativo fornece.

As partes interessadas podem conversar com o bot do aplicativo e fornecer feedback sobre essas conversas, ou fornecer feedback sobre o histórico logs, rastreamentos selecionados ou resultados do agente.

Requisitos

  • As tabelas de inferência devem estar ativadas no endpoint que está servindo o agente.

  • Cada avaliador humano deve ter acesso ao aplicativo de avaliação workspace ou estar sincronizado com o seu Databricks account com SCIM. Consulte a próxima seção, Configurar permissões para usar o aplicativo de avaliação.

  • Os desenvolvedores devem instalar o SDK do databricks-agents para definir as permissões e configurar o aplicativo de revisão.

    Python
    %pip install databricks-agents
    dbutils.library.restartPython()

Configurar permissões para usar o aplicativo de avaliação

nota

Os revisores humanos não precisam ter acesso ao site workspace para usar o aplicativo de revisão.

O senhor pode dar acesso ao aplicativo de avaliação a qualquer usuário em seu site Databricks account, mesmo que ele não tenha acesso ao site workspace que contém o aplicativo de avaliação.

  • Para usuários que não têm acesso workspace ao, um administrador do account usa accounto SCIM provisionamento de nível para sincronizar usuários e grupos automaticamente do provedor de identidade para o Databricks account. O senhor também pode registrar manualmente esses usuários e grupos para dar-lhes acesso quando configurar identidades em Databricks. Consulte Sincronizar usuários e grupos do seu provedor de identidade usando o SCIM.
  • Para os usuários que já têm acesso ao site workspace que contém o aplicativo de revisão, não é necessária nenhuma configuração adicional.

O exemplo de código a seguir mostra como conceder aos usuários permissão para acessar o aplicativo de avaliação de um agente. O parâmetro users recebe uma lista de endereços email.

Python
from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Para revisar um chat log, o usuário deve ter a permissão CAN_REVIEW.

implantado o aplicativo de revisão

Quando o senhor implanta um agente usando agents.deploy(), o aplicativo de revisão é automaticamente ativado e implantado. A saída do comando mostra o URL do aplicativo de revisão. Para obter informações sobre o agente implantado, consulte implantado an agent for generative AI applications.

link para o aplicativo de revisão da saída do comando Notebook

Se você perder o link para a implantação, poderá encontrá-lo usando list_deployments().

Python
from databricks import agents

deployments = agents.list_deployments()
deployments

Revise a IU do aplicativo

Para abrir o aplicativo de avaliação, clique no URL fornecido. A interface do usuário do aplicativo de avaliação tem três guias na barra lateral esquerda:

Quando você abre o aplicativo de avaliação, a página de instruções é exibida.

revise a tela de abertura do aplicativo

Forneça instruções aos revisores

Para fornecer texto personalizado para as instruções exibidas aos revisores, use o código a seguir:

Python
from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Uma captura de tela das instruções do aplicativo de revisão especificou o exemplo em Python.

Converse com o aplicativo e envie avaliações

Para conversar com o aplicativo e enviar avaliações:

  1. Clique em Testar o bot na barra lateral esquerda.

  2. Digite sua pergunta na caixa e pressione Return ou Enter no teclado, ou clique na seta na caixa.

    O aplicativo exibe a resposta à sua pergunta e as fontes usadas para encontrar a resposta.

nota

Se o agente usar um retriever, a fonte de dados será identificada pelo campo doc_uri definido pelo esquema do retriever definido durante a criação do agente. Consulte Definir esquema do retriever.

  1. Analise a resposta do aplicativo e selecione Sim , Não ou Não sei.

  2. O aplicativo solicita informações adicionais. Marque as caixas apropriadas ou digite seus comentários no campo fornecido.

  3. Você também pode editar a resposta diretamente para fornecer uma resposta melhor. Para editar a resposta, clique em Editar resposta , faça suas alterações na caixa de diálogo e clique em Salvar , conforme mostrado no vídeo a seguir.

    como editar uma resposta

  4. Clique em Concluído para salvar seus comentários.

  5. Continue fazendo perguntas para fornecer feedback adicional.

O diagrama a seguir ilustra esse fluxo de trabalho.

  1. Usando o aplicativo de avaliação, o revisor conversa com o aplicativo do agente.
  2. Usando o aplicativo de avaliação, o revisor fornece feedback sobre as respostas do aplicativo.
  3. Todas as solicitações, respostas e feedback são registros em tabelas de inferência.

executar o aplicativo de avaliação no qual os especialistas conversam com o aplicativo autêntico e fornecem feedback.

Disponibilizar o chat logs para avaliação por revisores especializados

Quando um usuário interage com o aplicativo usando a API REST ou o aplicativo de avaliação, todas as solicitações, respostas e feedback adicional são salvos em tabelas de inferência. As tabelas de inferência estão localizadas no mesmo catálogo e esquema do Unity Catalog em que o modelo foi registrado e são denominadas <model_name>_payload, <model_name>_payload_assessment_logs e <model_name>_payload_request_logs. Para obter mais informações sobre essas tabelas, incluindo esquemas, consulte Monitorar agentes implantados.

Para carregar esses logs no aplicativo de revisão para avaliação por revisores especializados, o senhor deve primeiro localizar o site request_id e ativar as revisões para esse site request_id da seguinte forma:

  1. Localize os request_ids a serem revisados na tabela de inferência <model_name>_payload_request_logs. A tabela de inferência está no mesmo catálogo e esquema do Unity Catalog em que o modelo foi registrado.

  2. Use um código semelhante ao seguinte para carregar os logs de revisão no aplicativo de revisão:

    Python
    from databricks import agents

    agents.enable_trace_reviews(
    model_name=model_fqn,
    request_ids=[
    "52ee973e-0689-4db1-bd05-90d60f94e79f",
    "1b203587-7333-4721-b0d5-bba161e4643a",
    "e68451f4-8e7b-4bfc-998e-4bda66992809",
    ],
    )
  3. A célula de resultado inclui um link para o aplicativo de revisão com os logs selecionados carregados para revisão.

Aplicativo de avaliação com o chat logs carregado para avaliação de especialistas

Análise especializada de logs das interações de outros usuários com o aplicativo

Para revisar logs de chats anteriores, o logs deve estar habilitado para revisão. Consulte Tornar o bate-papo logs disponível para avaliação por revisores especializados.

  1. Na barra lateral esquerda do aplicativo de avaliação, selecione Conversas para revisar. As solicitações habilitadas são exibidas.

    bate-papos ativados para análise

  2. Clique em uma solicitação para exibi-la para análise.

  3. Analise a solicitação e a resposta. O aplicativo também mostra as fontes usadas como referência. Você pode clicar neles para revisar a referência e fornecer feedback sobre a relevância da fonte.

  4. Para fornecer feedback sobre a qualidade da resposta, selecione Sim , Não ou Não sei.

  5. O aplicativo solicita informações adicionais. Marque as caixas apropriadas ou digite seus comentários no campo fornecido.

  6. Você também pode editar a resposta diretamente para fornecer uma resposta melhor. Para editar a resposta, clique em Editar resposta , faça suas alterações na caixa de diálogo e clique em Salvar . Consulte Converse com o aplicativo e envie avaliações para um vídeo que mostre o processo.

  7. Clique em Concluído para salvar seus comentários.

O diagrama a seguir ilustra esse fluxo de trabalho.

  1. Usando o aplicativo de avaliação ou o aplicativo personalizado, os revisores conversam com o aplicativo do agente.
  2. Todas as solicitações e respostas são registros em tabelas de inferência.
  3. O desenvolvedor do aplicativo usa enable_trace_reviews([request_id]) (onde request_id é da tabela de inferência <model_name>_payload_request_logs) para postar o bate-papo logs para revisar o aplicativo.
  4. Usando o aplicativo de análise, o especialista analisa o site logs e fornece feedback. O feedback de especialistas é registrado em tabelas de inferência.

Execute uma revisão de rastreamento na qual os revisores interagem com o aplicativo de revisão ou com a API REST para apresentar feedback.

Use mlflow.evaluate() na solicitação logs table

O Notebook a seguir ilustra como usar o logs do aplicativo de revisão como entrada para uma execução de avaliação usando mlflow.evaluate().

Avaliação da execução a pedido logs Notebook

Open notebook in new tab