Pular para o conteúdo principal

Aplicativo de avaliação

O Review App é uma interface de usuário baseada na web projetada para coletar feedback estruturado de especialistas do domínio sem exigir que eles escrevam código. Use-o para reunir percepções que melhorem a qualidade do seu aplicativo GenAI e alinhe os juízes do LLM com os requisitos de negócios.

Revise a imagem prévia do herói do aplicativo.

Duas maneiras de usar o Review App

rótulo traços existentes

Peça aos especialistas que analisem as interações existentes com seu aplicativo para fornecer feedback e expectativas.

Use isso para:

  • Entenda como são as respostas corretas e de alta qualidade para consultas específicas
  • Coletar informações para alinhar os juízes do LLM com suas necessidades de negócios
  • Criar um conjunto de dados de avaliação a partir de traços de produção

Vibe confira um aplicativo de pré-produção

Para usar o modo de verificação de vibração, o senhor deve ter o aplicativo implantado

Peça aos especialistas que conversem com um aplicativo implantado e forneçam feedback sobre as respostas do aplicativo em tempo real.

Use isso para:

  • Obtenha feedback rápido sobre as novas versões do aplicativo antes da implantação
  • Teste o comportamento do aplicativo sem afetar seu ambiente de produção
  • Valide melhorias com especialistas em domínios

Mode comparação

Aspecto

rótulo traços existentes

Modo de verificação do Vibe

Fonte de entrada

Traços existentes

Especialista em domínios insere consultas

Fonte de saída

Traços existentes

Agente ao vivo endpoint respostas

Esquema de rótulo personalizado

✅ Sim - defina perguntas e critérios personalizados

❌ Não - usa perguntas de feedback fixas

Resultados armazenados em

MLflow Traces (dentro de um rótulo Session)

Traços de MLflow

Pré-requisitos

  1. Instale o site MLflow e o pacote necessário

    Bash
    pip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1"
  2. Crie um experimento MLflow seguindo o início rápido de configuração do ambiente.

  3. Apenas para o modo de verificação de vibração: um endpoint de agente implantado usando o Agent Framework

1. rótulo traços existentes

rótulo existing traces permite que o senhor colete feedback estruturado sobre traços já capturados na produção ou no desenvolvimento. Isso é ideal para criar conjuntos de dados de avaliação, entender padrões de qualidade e treinar juízes personalizados do LLM.

O processo envolve a criação de uma sessão de rótulo, a definição do feedback a ser coletado, a adição de traços para revisão e o compartilhamento com especialistas no domínio. Para obter instruções passo a passo completas, consulte o rótulo traços existentes.

Para obter informações detalhadas sobre rótulo sessions, esquemas e opções de configuração, consulte rótulo Sessions e rótulo Schemas.

2. Modo de verificação do Vibe

  1. pacote seu aplicativo usando o Agent Framework e implantado usando o Agent Framework como um modelo de serviço endpoint.

  2. Adicione o endpoint ao aplicativo de revisão do seu experimento:

nota

O exemplo abaixo adiciona um LLM hospedado pela Databricks ao aplicativo de revisão. Substitua o endpoint pelo endpoint do seu aplicativo da etapa 1.

Python
from mlflow.genai.labeling import get_review_app

# Get review app for current MLflow experiment
review_app = get_review_app()

# Connect your deployed agent endpoint
review_app.add_agent(
agent_name="claude-sonnet",
model_serving_endpoint="databricks-claude-3-7-sonnet",
)

print(f"Share this URL: {review_app.url}/chat")

Os especialistas do domínio agora podem conversar com seu aplicativo e fornecer feedback imediato.

Modelo de permissões

Para rótulo de rastros existentes

Os especialistas em domínios precisam de:

  • acesso à conta : Deve ser provisionado em seu site Databricks account, mas não precisa acessar sua workspace
  • Acesso ao experimento : Permissão WRITE para o experimento MLflow

Para o modo de verificação de vibração

Os especialistas em domínios precisam de:

  • acesso à conta : Deve ser provisionado em seu site Databricks account, mas não precisa ter acesso à sua workspace
  • acesso ao endpoint : Permissão CAN_QUERY para o modelo servindo endpoint

Configuração do acesso account

Para usuários sem acesso a workspace, os administradores de account podem:

  • Use account-level SCIM provisionamento para sincronizar os usuários do seu provedor de identidade
  • Registro manual de usuários e grupos em Databricks

Consulte Gerenciamento de usuários e grupos para obter detalhes.

Renderização de conteúdo

O Review App renderiza automaticamente diferentes tipos de conteúdo de seu MLflow Trace:

  • Documentos recuperados: os documentos dentro de um intervaloRETRIEVER são renderizados para exibição

  • Mensagens no formato OpenAI : As entradas e saídas do MLflow Trace após as conversas de bate-papo do OpenAI são renderizadas:

  • Dicionários : As entradas e saídas do MLflow Trace que são dicionários são renderizadas como JSONs bem impressos

Caso contrário, o conteúdo de input e output da extensão raiz de cada rastreamento será usado como o conteúdo principal para revisão.

Acessando dados de feedback

Depois que os especialistas fornecem feedback, o rótulo é armazenado em MLflow Traces em sua experiência. Use o Traces tab ou o rótulo Sessions tab para view os dados.

Próximas etapas