Código Genie para observabilidade e avaliação de agentes

Genie Code fornece uma interface de linguagem natural para entender, detalhar e aprimorar seus aplicativos GenAI dentro MLflow. Ele oferece acesso de leitura a tudo em seu experimento, desde rastreamentos, prompts e conjunto de dados até execução de avaliação, avaliadores e sessões de rotulagem — para que você possa explorar seus dados de observabilidade e avaliação de forma conversacional, em vez de escrever consultas ou navegar por várias páginas da interface do usuário.

Para começar, clique no ícone Genie Code no canto superior direito da sua workspace enquanto estiver visualizando um experimento.

Capacidades

Genie Code pode ajudar você com uma ampla gama de tarefas de observabilidade e avaliação, incluindo:

Análise e rastreamento : Investigue rastreamentos com falha, encontre erros, examine árvores de abrangência, identifique as causas raiz, analise a latência e identifique gargalos no fluxo de execução do seu agente. Analise detalhadamente qualquer rastreamento para inspecionar toda a sua hierarquia, incluindo entradas, saídas, metadados e uso de tokens em cada etapa.
Métricas e desempenho : calcular percentis de latência (P50/P95/P99), acompanhar taxas de erro e custos de transferência ao longo do tempo, analisar padrões de uso e custos de tokens e comparar o desempenho em diferentes períodos ou filtros.
Qualidade e avaliações : Analisar as pontuações das avaliações provenientes de feedback humano, juízes do LLM e verificações programáticas. Inspecione o conjunto de dados de avaliação, verifique os avaliadores registrados e suas configurações e obtenha ajuda para configurar mlflow.genai.evaluate() com os avaliadores corretos.
Etiqueta e revisão : visualize as sessões de etiquetagem e quem está designado para revisar os rastreamentos, e inspecione os esquemas de etiquetagem para entender os critérios de feedback, como classificações, comentários e expectativas.
Registro de prompts : Navegue pelos prompts no Unity Catalog, view padrões, versões e aliases.
Orientações de instrumentação : Obtenha ajuda para adicionar rastreamento ao seu código com autolog(), @mlflow.trace ou spans manuais, com trechos de código executáveis que você pode colar diretamente no Notebook Databricks .

Exemplos de perguntas

Aqui estão algumas coisas que você pode perguntar ao Genie Code:

"Ajude-me a descobrir problemas com a ferramenta do meu agente ao coletar os dados de rastreamento deste experimento nas últimas 3 horas."
"Identificar casos em que os usuários ficam frustrados nas conversas com meu agente"
"Quais sessões têm as pontuações mais baixas de feedback do usuário e o que deu errado nessas conversas?"
"Quais são os padrões de falha mais comuns nos meus rastreamentos na última semana e quais indicadores devo adicionar para detectá-los?"
"Quais trechos consomem mais tokens em todos os meus rastreamentos?"
"Encontre rastros onde o recuperador não retornou resultados, mas o agente ainda tentou responder"
"Ajude-me a configurar a avaliação do meu agente RAG com os avaliadores certos"

Requisitos

Para usar Genie Code para observabilidade e avaliação de agentes, seu workspace precisa do seguinte:

Recursos AI com tecnologia de parceiros habilitados tanto para a account quanto para workspace. Veja recurso AI com tecnologia de parceiros.
Seu workspace deve estar em uma região compatível. Genie Code é um serviço designado que utiliza Geos para gerenciar a residência de dados. Veja a disponibilidadeGeo do recurso Genie Code.

Recursos adicionais

MLflow Tracing - observabilidade de GenAI – Saiba mais sobre o MLflow Tracing para observabilidade de ponta a ponta.
Avalie e monitore agentes de AI - Configure a avaliação e o monitoramento para seus agentes GenAI.
Começar: MLflow 3 para GenAI — Começar com MLflow 3 para GenAI.

Capacidades​

Exemplos de perguntas​

Requisitos​

Recursos adicionais​

Capacidades

Exemplos de perguntas

Requisitos

Recursos adicionais