Mosaic AI Avaliação do agente Notebook ( 2) tutorial MLflow
important
Databricks recomenda o uso MLflow 3 para avaliar e monitorar aplicativos GenAI. Esta página descreve a avaliação do agente MLflow 2.
- Para uma introdução à avaliação e monitoramento no MLflow 3, consulte Avaliação e monitoramento.
- Para obter informações sobre a migração para MLflow 3, consulte Migrar para MLflow 3 a partir da avaliação do agente.
- Para informações MLflow 3 sobre este tema, consulte Avaliação e monitoramento.
O Notebook a seguir demonstra como avaliar um aplicativo do gênero AI usando os juízes proprietários do Agent Evaluation LLM, métricas personalizadas e rótulo de especialistas no domínio. Isso demonstra o seguinte:
- Como carregar a produção logs (traces) em uma avaliação dataset.
- Como executar uma avaliação e fazer uma análise de causa raiz.
- Como criar métricas personalizadas para detectar automaticamente problemas de qualidade.
- Como enviar a produção logs para PMEs para rótulo e evoluir a avaliação dataset.
Para preparar seu agente para a pré-produção, consulte o Mosaic AI agent demo Notebook. Para obter informações gerais, consulte Mosaic AI Agent Evaluation (MLflow 2).