Pular para o conteúdo principal

Mosaic AI Avaliação do agente Notebook ( 2) tutorial MLflow

info

MLflow 2

Esta página descreve o uso da versão de avaliação do agente 0.22 com o MLflow 2. A Databricks recomenda o uso do MLflow 3, que é integrado à Avaliação do agente >1.0. No MLflow 3, as APIs de avaliação de agentes agora fazem parte do pacote mlflow.

Para obter informações sobre esse tópico, consulte Evaluate & Monitor.

O Notebook a seguir demonstra como avaliar um aplicativo do gênero AI usando os juízes proprietários do Agent Evaluation LLM, métricas personalizadas e rótulo de especialistas no domínio. Isso demonstra o seguinte:

  • Como carregar a produção logs (traces) em uma avaliação dataset.
  • Como executar uma avaliação e fazer uma análise de causa raiz.
  • Como criar métricas personalizadas para detectar automaticamente problemas de qualidade.
  • Como enviar a produção logs para PMEs para rótulo e evoluir a avaliação dataset.

Para preparar seu agente para a pré-produção, consulte o Mosaic AI agent demo Notebook. Para obter informações gerais, consulte Mosaic AI Agent Evaluation (MLflow 2).

Avaliação do agente métricas personalizadas, diretrizes e rótulo de especialista em domínio Notebook

Open notebook in new tab