Avaliar e monitorar agentes AI
MLflow fornece recursos abrangentes de avaliação de agentes e avaliação LLM para ajudar você a medir, melhorar e manter a qualidade de seus aplicativos AI . O MLflow oferece suporte a todo o ciclo de vida de desenvolvimento, desde os testes até o monitoramento da produção para LLMs, agentes, sistemas RAG ou outros aplicativos GenAI.
Avaliar agentes AI e LLMs é mais complexo do que a avaliação de modelos ML tradicionais. Essas aplicações envolvem múltiplos componentes, conversas multifacetadas e critérios de qualidade diferenciados. Tanto as métricas qualitativas quanto as quantitativas exigem abordagens de avaliação especializadas para avaliar o desempenho com precisão.
O componente de avaliação e monitoramento do MLflow 3 foi projetado para ajudar você a identificar problemas de qualidade e a causa raiz desses problemas. Ele é baseado no MLflow Tracing, que fornece registro de rastreamento em tempo real nas fases de desenvolvimento, teste e produção. Ele também inclui juízes LLM integrados e um aplicativo de revisão integrado para coletar feedback humano. Conforme mostrado no diagrama, os mesmos juízes do LLM são usados no desenvolvimento e na produção, garantindo uma avaliação consistente durante todo o ciclo de vida do aplicativo.
O diagrama mostra o fluxo de trabalho iterativo de alto nível.

Durante o desenvolvimento, você testa o aplicativo em um dataset de avaliação. Você também pode usar o aplicativo Review para desenvolver uma versão para seus especialistas de domínio testarem e adicionarem ao dataset de avaliação com base em suas interações com o aplicativo. Você pode usar pontuadores pré-criados MLflow ou pontuadores personalizados para avaliar o desempenho do aplicativo no dataset.
Após você colocar o aplicativo em produção, os mesmos scorers são usados para monitorar seu desempenho. Você pode salvar rastros MLflow de consultas de produção e adicioná-los ao dataset de avaliação para desenvolvimento iterativo de aplicativos no futuro.
Recurso | Descrição |
|---|---|
execução um rápido notebook de demonstração que o orienta na criação e no rastreamento de um aplicativo GenAI simples, definindo critérios de avaliação, executando a avaliação, revisando os resultados e modificando o prompt e reavaliando. | |
o passo por um tutorial da avaliação completa do fluxo de trabalho. Aprenda a usar o conjunto de dados de avaliação para avaliar a qualidade, identificar problemas e melhorar seu aplicativo iterativamente. Crie um conjunto de dados de avaliação a partir do uso real. Use o recurso de avaliação para avaliar a qualidade usando pontuadores pré-criados e personalizados. visualizar resultados para ajudar a identificar as causas raiz dos problemas de qualidade. Compare versões para determinar se suas alterações melhoraram a qualidade e não causaram regressões. | |
Execute automaticamente marcadores nos rastreamentos do seu aplicativo GenAI de produção para monitorar continuamente a qualidade. Você pode programar qualquer scorer para avaliar automaticamente uma amostra do seu tráfego de produção. | |
Os juízes integrados LLM são a maneira mais fácil de começar. | |
À medida que sua aplicação se torna mais complexa, você pode criar juízes LLM personalizados para ajustar os critérios de avaliação aos requisitos comerciais específicos do seu caso de uso e para se alinhar ao julgamento dos seus especialistas no domínio. | |
Pontuadores personalizados oferecem flexibilidade para definir métricas de avaliação adaptadas ao seu caso de uso comercial específico. | |
Crie um conjunto de dados de avaliação para testar e melhorar sistematicamente a qualidade do seu aplicativo GenAI. Adicione rastreamentos de consultas de teste ou produção. |
A Avaliação do Agente é integrada ao gerenciar MLflow 3. Os métodos SDK de Avaliação do Agente agora estão disponíveis usando o mlflow[databricks]>=3.1 SDK. Consulte Migrar para o MLflow 3 da Avaliação do Agente para atualizar seu código de Avaliação do Agente do MLflow 2 para usar o MLflow 3.