Código Genie para observabilidade e avaliação de agentes
Databricks Assistant fornece uma interface de linguagem natural para entender, detalhar e aprimorar seus aplicativos GenAI dentro MLflow. Ele oferece acesso de leitura a tudo em seu experimento, desde rastreamentos, prompts e conjunto de dados até execução de avaliação, avaliadores e sessões de rotulagem — para que você possa explorar seus dados de observabilidade e avaliação de forma conversacional, em vez de escrever consultas ou navegar por várias páginas da interface do usuário.
Para começar, clique no ícone Databricks Assistant no canto superior direito da sua workspace enquanto estiver visualizando um experimento.

Capacidades
Databricks Assistant pode ajudar você com uma ampla gama de tarefas de observabilidade e avaliação, incluindo:
- Análise e rastreamento : Investigue rastreamentos com falha, encontre erros, examine árvores de abrangência, identifique as causas raiz, analise a latência e identifique gargalos no fluxo de execução do seu agente. Analise detalhadamente qualquer rastreamento para inspecionar toda a sua hierarquia, incluindo entradas, saídas, metadados e uso de tokens em cada etapa.
- Métricas e desempenho : calcular percentis de latência (P50/P95/P99), acompanhar taxas de erro e custos de transferência ao longo do tempo, analisar padrões de uso e custos de tokens e comparar o desempenho em diferentes períodos ou filtros.
- Qualidade e avaliações : Analisar as pontuações das avaliações provenientes de feedback humano, juízes do LLM e verificações programáticas. Inspecione o conjunto de dados de avaliação, verifique os avaliadores registrados e suas configurações e obtenha ajuda para configurar
mlflow.genai.evaluate()com os avaliadores corretos. - Etiqueta e revisão : visualize as sessões de etiquetagem e quem está designado para revisar os rastreamentos, e inspecione os esquemas de etiquetagem para entender os critérios de feedback, como classificações, comentários e expectativas.
- Registro de prompts : Navegue pelos prompts no Unity Catalog, view padrões, versões e aliases.
- Orientações de instrumentação : Obtenha ajuda para adicionar rastreamento ao seu código com
autolog(),@mlflow.traceou spans manuais, com trechos de código executáveis que você pode colar diretamente no Notebook Databricks .
Exemplos de perguntas
Aqui estão algumas perguntas que você pode fazer Databricks Assistant:
- "Ajude-me a descobrir problemas com a ferramenta do meu agente ao coletar os dados de rastreamento deste experimento nas últimas 3 horas."
- "Identificar casos em que os usuários ficam frustrados nas conversas com meu agente"
- "Quais sessões têm as pontuações mais baixas de feedback do usuário e o que deu errado nessas conversas?"
- "Quais são os padrões de falha mais comuns nos meus rastreamentos na última semana e quais indicadores devo adicionar para detectá-los?"
- "Quais trechos consomem mais tokens em todos os meus rastreamentos?"
- "Encontre rastros onde o recuperador não retornou resultados, mas o agente ainda tentou responder"
- "Ajude-me a configurar a avaliação do meu agente RAG com os avaliadores certos"
Próximos passos
- MLflow Tracing - Observabilidade GenAI — Saiba mais sobre MLflow Tracing para observabilidade de ponta a ponta.
- Avalie e monitore agentes AI — Configure a avaliação e o monitoramento para seus agentes GenAI.
- Comece: MLflow 3 para GenAI — Comece com MLflow 3 para GenAI.