Obter feedback sobre a qualidade de um aplicativo autêntico

Prévia

Este recurso está em Prévia pública.

Este artigo mostra como usar o aplicativo de revisão Databricks para obter feedback de avaliadores humanos sobre a qualidade do seu aplicativo autêntico.

O Mosaic AI Agent Evaluation possibilita que os desenvolvedores avaliem de forma rápida e confiável a qualidade, o custo e a latência de seu aplicativo de IA generativa. Os recursos de avaliação de agentes são unificados entre as fases de desenvolvimento, preparação e produção do ciclo de vida do LLMops.

O Agent Evaluation faz parte da nossa oferta Mosaic AI Agent Framework, projetada para ajudar os desenvolvedores a implementar aplicativos de IA generativa de alta qualidade. Aplicativos de alta qualidade são aqueles em que o resultado é avaliado como preciso, seguro e governado.

O que acontece em uma avaliação humana?

O aplicativo de revisão permite que o senhor obtenha feedback das partes interessadas especializadas sobre o seu aplicativo. Isso ajuda a garantir a qualidade e a segurança das respostas fornecidas.

Há três maneiras de coletar feedback utilizando o aplicativo de avaliação. Partes interessadas especializadas:

  • Converse com o bot do aplicativo e apresente feedback sobre essas conversas.

  • Apresente feedback sobre logs históricos de outros usuários.

  • Apresente feedback sobre quaisquer rastreamentos curados e saídas de agentes.

No aplicativo de revisão da Databricks, o LLM é apresentado em um ambiente em que as partes interessadas especializadas podem interagir com ele. Em outras palavras, conversar, fazer perguntas e assim por diante.

Requisitos

Para usar o aplicativo de revisão para avaliação humana de um aplicativo agêntico, o senhor precisa ter as seguintes configurações:

  • As tabelas de inferência devem estar ativadas no endpoint que está servindo o agente. Isso permite que o aplicativo de análise colete e registre dados sobre o aplicativo agêntico.

  • Acesso ao workspace do aplicativo de revisão para cada revisor humano. Consulte a próxima seção, Configurar permissões de aplicativo de revisão.

Configure permissões para o workspace do aplicativo de revisão

Se seus revisores já tiverem acesso ao espaço de trabalho que contém o aplicativo de avaliação, você não precisa fazer nada.

Se os revisores ainda não tiverem acesso, os administradores da conta poderão utilizar o provisionamento SCIM em nível de conta para sincronizar usuários e grupos automaticamente do seu provedor de identidade para sua conta do Databricks. Também é possível registrar manualmente esses usuários e grupos configurando identidades no Databricks. Isso possibilita que eles sejam incluídos como revisores qualificados. Consulte Sincronizar usuários e grupos do seu provedor de identidade.


  from databricks.agents import set_permissions
  from databricks.agents.entities import PermissionLevel

  set_permissions(model_fqn, ["user.name@databricks.com"], PermissionLevel.CAN_QUERY)

Para os novos clientes do Public Preview que enfrentarem problemas para dar aos avaliadores acesso ao aplicativo de avaliação, entre em contato com a equipe da conta do DB para ativar esse recurso.

Fornecer instruções aos revisores

Escreva um texto personalizado para as instruções exibidas para os revisores e envie-o conforme mostrado no exemplo de código a seguir:

  from databricks.agents import set_review_instructions, get_review_instructions

  set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
  get_review_instructions(uc_model_name)
Uma captura de tela das instruções do aplicativo de revisão especificou o exemplo em Python.

Visão geral da interface do usuário do aplicativo de revisão

O fluxo de trabalho básico de uma avaliação especializada no aplicativo de avaliação:

  1. Abra o URL do aplicativo de avaliação fornecido.

  2. Revisar conversas preenchidas.

    Número e status dos chats preenchidos previamente no aplicativo de revisão.
  3. Converse com o bot e envie avaliações de suas respostas.

    Converse com o bot e envie avaliações de suas respostas.

Opções para realizar uma avaliação com as partes interessadas

Especialistas conversam com o aplicativo de avaliação

Para utilizar essa opção, chame `deploy_model (...) ` e defina as permissões corretas. O diagrama a seguir mostra o funcionamento dessa opção.

executar o aplicativo de avaliação no qual os especialistas conversam com o aplicativo autêntico e fornecem feedback.
  1. As partes interessadas especializadas conversam com o aplicativo agêntico

  2. Feedback sobre a resposta

  3. Solicitação/resposta de aplicativo

  4. Solicitação/resposta do aplicativo + rastreamento + feedback

Especialistas revisam registros

Para usar essa opção, primeiro implante seu aplicativo agêntico usando `implantado(...)`. Depois que os usuários interagem com a API REST ou com o aplicativo de avaliação, o senhor pode carregar esses rastreamentos de volta no aplicativo de avaliação usando o código a seguir.


  from databricks.agents import enable_trace_reviews

  enable_trace_reviews(
    model_name=model_fqn,
    request_ids=[
        "52ee973e-0689-4db1-bd05-90d60f94e79f",
        "1b203587-7333-4721-b0d5-bba161e4643a",
        "e68451f4-8e7b-4bfc-998e-4bda66992809",
    ],
  )

Use valores da coluna request_id da tabela de registros de solicitações.

Execute uma revisão de rastreamento na qual os revisores interagem com o aplicativo de revisão ou com a API REST para apresentar feedback.
  1. enable_trace_reviews([request_id])

  2. Chats carregados

  3. Os especialistas das partes interessadas conversam com o aplicativo

  4. Feedback sobre a resposta

  5. Solicitações de uso de aplicativos front-end ou de uso de aplicativos de revisão

  6. Solicitação/resposta de aplicativo

  7. Solicitação/resposta do aplicativo + rastreamento + feedback

Execute a avaliação na tabela de registros de solicitações

O seguinte Notebook ilustra como usar o logs do aplicativo de revisão como entrada para uma execução de avaliação usando mlflow.evaluate().

Execute a avaliação no Notebook de log de solicitações

Abra o bloco de anotações em outra guia

Limitação

Se o senhor implantar um aplicativo sem iniciar nenhuma revisão usando a chamada enable_trace_reviews e tiver permissões CAN_MANAGE para a implantação, o serviço retornará uma resposta NO_PERMISSIONS ao invocar a chamada get_permissions endpoint. Esse é um problema conhecido, e os níveis de permissão apropriados estão sendo mantidos em todo o sistema.

Ao usar a funcionalidade enable_trace_reviews para gerar artefatos de revisão, confirme se todos os usuários têm as permissões necessárias para realizar avaliações ou gerenciá-las. Para fazer isso, use a API set_permissions .