Notebook tutorial de avaliação de agentes (MLflow 2)

importante

Databricks recomenda o uso MLflow 3 para avaliar e monitorar aplicativos GenAI. Esta página descreve a avaliação do agente MLflow 2.

Para uma introdução à avaliação e monitoramento no MLflow 3, consulte Avaliar e monitorar agentes AI.
Para obter informações sobre a migração para MLflow 3, consulte Migrar para MLflow 3 a partir da avaliação do agente.
Para obter informações sobre este tópico MLflow 3, consulte Avaliar e monitorar agentes AI.

O Notebook a seguir demonstra como avaliar um aplicativo do gênero AI usando os juízes proprietários do Agent Evaluation LLM, métricas personalizadas e rótulo de especialistas no domínio. Isso demonstra o seguinte:

Como carregar a produção logs (traces) em uma avaliação dataset.
Como executar uma avaliação e fazer uma análise de causa raiz.
Como criar métricas personalizadas para detectar automaticamente problemas de qualidade.
Como enviar a produção logs para PMEs para rótulo e evoluir a avaliação dataset.

Para preparar seu agente para a pré-produção, consulte o Notebook de demonstração do agenteMosaic AI. Para informações gerais, consulte Avaliação do Agente (MLflow 2).

Avaliação do agente métricas personalizadas, diretrizes e rótulo de especialista em domínio Notebook

Open notebook in new tab