Pular para o conteúdo principal

Avaliar e monitorar agentes AI

MLflow fornece recursos abrangentes de avaliação de agentes e avaliação LLM para ajudar você a medir, melhorar e manter a qualidade de seus aplicativos AI . O MLflow oferece suporte a todo o ciclo de vida de desenvolvimento, desde os testes até o monitoramento da produção para LLMs, agentes, sistemas RAG ou outros aplicativos GenAI.

Avaliar agentes AI e LLMs é mais complexo do que a avaliação de modelos ML tradicionais. Essas aplicações envolvem múltiplos componentes, conversas multifacetadas e critérios de qualidade diferenciados. Tanto as métricas qualitativas quanto as quantitativas exigem abordagens de avaliação especializadas para avaliar o desempenho com precisão.

O componente de avaliação e monitoramento do MLflow 3 foi projetado para ajudar você a identificar problemas de qualidade e a causa raiz desses problemas. Ele é baseado no MLflow Tracing, que fornece registro de rastreamento em tempo real nas fases de desenvolvimento, teste e produção. Ele também inclui juízes LLM integrados e um aplicativo de revisão integrado para coletar feedback humano. Conforme mostrado no diagrama, os mesmos juízes do LLM são usados no desenvolvimento e na produção, garantindo uma avaliação consistente durante todo o ciclo de vida do aplicativo.

O diagrama mostra o fluxo de trabalho iterativo de alto nível.

Diagrama de visão geral da avaliação e monitoramento do MLflow 3

Durante o desenvolvimento, você testa o aplicativo em um dataset de avaliação. Você também pode usar o aplicativo Review para desenvolver uma versão para seus especialistas de domínio testarem e adicionarem ao dataset de avaliação com base em suas interações com o aplicativo. Você pode usar pontuadores pré-criados MLflow ou pontuadores personalizados para avaliar o desempenho do aplicativo no dataset.

Após você colocar o aplicativo em produção, os mesmos scorers são usados para monitorar seu desempenho. Você pode salvar rastros MLflow de consultas de produção e adicioná-los ao dataset de avaliação para desenvolvimento iterativo de aplicativos no futuro.

Recurso

Descrição

Demonstração de 10 minutos: Avalie um aplicativo GenAI

Execução: um notebook de demonstração rápida que apresenta a avaliação MLflow usando um aplicativo GenAI simples.

tutorial: Avaliar e melhorar um aplicativo GenAI

o passo por um tutorial do fluxo de trabalho de avaliação completo, utilizando um aplicativo RAG simulado. Utilize o conjunto de dados de avaliação e os juízes LLM para avaliar a qualidade, identificar problemas e aprimorar seu aplicativo de forma iterativa.

Avaliadores e juízes de LLM

Defina métricas de qualidade para seu aplicativo usando juízes LLM integrados, juízes LLM personalizados e avaliadores personalizados. Utilize as mesmas métricas tanto para o desenvolvimento quanto para a produção.

Avaliar durante o desenvolvimento

Teste sua aplicação GenAI no conjunto de dados de avaliação, utilizando avaliadores e juízes LLM . Compare versões de aplicativos, acompanhe melhorias e compartilhe resultados.

Monitorar aplicativos em produção (Beta)

Avaliadores de execução e juízes LLM automáticos em seus rastreamentos de aplicativos GenAI de produção para monitorar continuamente a qualidade.

nota

A Avaliação do Agente é integrada ao gerenciar MLflow 3. Os métodos SDK de Avaliação do Agente agora estão disponíveis usando o mlflow[databricks]>=3.1 SDK. Consulte Migrar para o MLflow 3 da Avaliação do Agente para atualizar seu código de Avaliação do Agente do MLflow 2 para usar o MLflow 3.