Aplicativo de avaliação
O Review App é uma interface de usuário baseada na web projetada para coletar feedback estruturado de especialistas do domínio sem exigir que eles escrevam código. Use-o para reunir percepções que melhorem a qualidade do seu aplicativo GenAI e alinhe os juízes do LLM com os requisitos de negócios.
Duas maneiras de usar o Review App
rótulo traços existentes
Peça aos especialistas que analisem as interações existentes com seu aplicativo para fornecer feedback e expectativas.
Use isso para:
- Entenda como são as respostas corretas e de alta qualidade para consultas específicas
- Coletar informações para alinhar os juízes do LLM com suas necessidades de negócios
- Criar um conjunto de dados de avaliação a partir de traços de produção
Vibe confira um aplicativo de pré-produção
Para usar o modo de verificação de vibração, o senhor deve ter o aplicativo implantado
Peça aos especialistas que conversem com um aplicativo implantado e forneçam feedback sobre as respostas do aplicativo em tempo real.
Use isso para:
- Obtenha feedback rápido sobre as novas versões do aplicativo antes da implantação
- Teste o comportamento do aplicativo sem afetar seu ambiente de produção
- Valide melhorias com especialistas em domínios
Mode comparação
Aspecto | ||
---|---|---|
Fonte de entrada | Traços existentes | Especialista em domínios insere consultas |
Fonte de saída | Traços existentes | Agente ao vivo endpoint respostas |
Esquema de rótulo personalizado | ✅ Sim - defina perguntas e critérios personalizados | ❌ Não - usa perguntas de feedback fixas |
Resultados armazenados em | MLflow Traces (dentro de um rótulo Session) | Traços de MLflow |
Pré-requisitos
-
Instale o site MLflow e o pacote necessário
Bashpip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1"
-
Crie um experimento MLflow seguindo o início rápido de configuração do ambiente.
-
Apenas para o modo de verificação de vibração: um endpoint de agente implantado usando o Agent Framework
1. rótulo traços existentes
rótulo existing traces permite que o senhor colete feedback estruturado sobre traços já capturados na produção ou no desenvolvimento. Isso é ideal para criar conjuntos de dados de avaliação, entender padrões de qualidade e treinar juízes personalizados do LLM.
O processo envolve a criação de uma sessão de rótulo, a definição do feedback a ser coletado, a adição de traços para revisão e o compartilhamento com especialistas no domínio. Para obter instruções passo a passo completas, consulte o rótulo traços existentes.
Para obter informações detalhadas sobre rótulo sessions, esquemas e opções de configuração, consulte rótulo Sessions e rótulo Schemas.
2. Modo de verificação do Vibe
-
pacote seu aplicativo usando o Agent Framework e implantado usando o Agent Framework como um modelo de serviço endpoint.
-
Adicione o endpoint ao aplicativo de revisão do seu experimento:
O exemplo abaixo adiciona um LLM hospedado pela Databricks ao aplicativo de revisão. Substitua o endpoint pelo endpoint do seu aplicativo da etapa 1.
from mlflow.genai.labeling import get_review_app
# Get review app for current MLflow experiment
review_app = get_review_app()
# Connect your deployed agent endpoint
review_app.add_agent(
agent_name="claude-sonnet",
model_serving_endpoint="databricks-claude-3-7-sonnet",
)
print(f"Share this URL: {review_app.url}/chat")
Os especialistas do domínio agora podem conversar com seu aplicativo e fornecer feedback imediato.
Modelo de permissões
Para rótulo de rastros existentes
Os especialistas em domínios precisam de:
- acesso à conta : Deve ser provisionado em seu site Databricks account, mas não precisa acessar sua workspace
- Acesso ao experimento : Permissão WRITE para o experimento MLflow
Para o modo de verificação de vibração
Os especialistas em domínios precisam de:
- acesso à conta : Deve ser provisionado em seu site Databricks account, mas não precisa ter acesso à sua workspace
- acesso ao endpoint : Permissão CAN_QUERY para o modelo servindo endpoint
Configuração do acesso account
Para usuários sem acesso a workspace, os administradores de account podem:
- Use account-level SCIM provisionamento para sincronizar os usuários do seu provedor de identidade
- Registro manual de usuários e grupos em Databricks
Consulte Gerenciamento de usuários e grupos para obter detalhes.
Renderização de conteúdo
O Review App renderiza automaticamente diferentes tipos de conteúdo de seu MLflow Trace:
-
Documentos recuperados: os documentos dentro de um intervalo
RETRIEVER
são renderizados para exibição -
Mensagens no formato OpenAI : As entradas e saídas do MLflow Trace após as conversas de bate-papo do OpenAI são renderizadas:
outputs
que contêm um objeto ChatCompletions no formato OpenAIinputs
ououtputs
dicts que contêm ummessages
key com uma matriz de mensagens de bate-papo no formato OpenAI- Se a matriz
messages
contiver chamadas de ferramentas no formato OpenAI, elas também serão renderizadas
- Se a matriz
-
Dicionários : As entradas e saídas do MLflow Trace que são dicionários são renderizadas como JSONs bem impressos
Caso contrário, o conteúdo de input
e output
da extensão raiz de cada rastreamento será usado como o conteúdo principal para revisão.
Acessando dados de feedback
Depois que os especialistas fornecem feedback, o rótulo é armazenado em MLflow Traces em sua experiência. Use o Traces tab ou o rótulo Sessions tab para view os dados.
Próximas etapas
- rótulo existing traces - Guia passo a passo para coletar feedback estruturado de especialistas
- Teste de aplicativo ao vivo - Configure o modo de verificação de vibração para testes de pré-produção
- Criar um conjunto de dados de avaliação - Converter o feedback dos especialistas em um conjunto de dados de avaliação