Pular para o conteúdo principal

Avaliar e monitorar agentes AI

MLflow fornece recursos abrangentes de avaliação de agentes e avaliação LLM para ajudar você a medir, melhorar e manter a qualidade de seus aplicativos AI . O MLflow oferece suporte a todo o ciclo de vida de desenvolvimento, desde os testes até o monitoramento da produção para LLMs, agentes, sistemas RAG ou outros aplicativos GenAI.

Avaliar agentes AI e LLMs é mais complexo do que a avaliação de modelos ML tradicionais. Essas aplicações envolvem múltiplos componentes, conversas multifacetadas e critérios de qualidade diferenciados. Tanto as métricas qualitativas quanto as quantitativas exigem abordagens de avaliação especializadas para avaliar o desempenho com precisão.

O componente de avaliação e monitoramento do MLflow 3 foi projetado para ajudar você a identificar problemas de qualidade e a causa raiz desses problemas. Ele é baseado no MLflow Tracing, que fornece registro de rastreamento em tempo real nas fases de desenvolvimento, teste e produção. Ele também inclui juízes LLM integrados e um aplicativo de revisão integrado para coletar feedback humano. Conforme mostrado no diagrama, os mesmos juízes do LLM são usados no desenvolvimento e na produção, garantindo uma avaliação consistente durante todo o ciclo de vida do aplicativo.

O diagrama mostra o fluxo de trabalho iterativo de alto nível.

Diagrama de visão geral da avaliação e monitoramento do MLflow 3

Durante o desenvolvimento, você testa o aplicativo em um dataset de avaliação. Você também pode usar o aplicativo Review para desenvolver uma versão para seus especialistas de domínio testarem e adicionarem ao dataset de avaliação com base em suas interações com o aplicativo. Você pode usar pontuadores pré-criados MLflow ou pontuadores personalizados para avaliar o desempenho do aplicativo no dataset.

Após você colocar o aplicativo em produção, os mesmos scorers são usados para monitorar seu desempenho. Você pode salvar rastros MLflow de consultas de produção e adicioná-los ao dataset de avaliação para desenvolvimento iterativo de aplicativos no futuro.

Recurso

Descrição

Demonstração de 10 minutos: Avalie um aplicativo GenAI

execução um rápido notebook de demonstração que o orienta na criação e no rastreamento de um aplicativo GenAI simples, definindo critérios de avaliação, executando a avaliação, revisando os resultados e modificando o prompt e reavaliando.

tutorial: Avaliar e melhorar um aplicativo GenAI

o passo por um tutorial da avaliação completa do fluxo de trabalho. Aprenda a usar o conjunto de dados de avaliação para avaliar a qualidade, identificar problemas e melhorar seu aplicativo iterativamente.

Crie um conjunto de dados de avaliação a partir do uso real. Use o recurso de avaliação para avaliar a qualidade usando pontuadores pré-criados e personalizados.

visualizar resultados para ajudar a identificar as causas raiz dos problemas de qualidade. Compare versões para determinar se suas alterações melhoraram a qualidade e não causaram regressões.

Monitorar aplicativos em produção (Beta)

Execute automaticamente marcadores nos rastreamentos do seu aplicativo GenAI de produção para monitorar continuamente a qualidade. Você pode programar qualquer scorer para avaliar automaticamente uma amostra do seu tráfego de produção.

juízes LLM integrados

Os juízes integrados LLM são a maneira mais fácil de começar.

Crie juízes LLM personalizados

À medida que sua aplicação se torna mais complexa, você pode criar juízes LLM personalizados para ajustar os critérios de avaliação aos requisitos comerciais específicos do seu caso de uso e para se alinhar ao julgamento dos seus especialistas no domínio.

Programe seus próprios marcadores personalizados

Pontuadores personalizados oferecem flexibilidade para definir métricas de avaliação adaptadas ao seu caso de uso comercial específico.

Construir conjunto de dados de avaliação MLflow

Crie um conjunto de dados de avaliação para testar e melhorar sistematicamente a qualidade do seu aplicativo GenAI. Adicione rastreamentos de consultas de teste ou produção.

nota

A Avaliação do Agente é integrada ao gerenciar MLflow 3. Os métodos SDK de Avaliação do Agente agora estão disponíveis usando o mlflow[databricks]>=3.1 SDK. Consulte Migrar para o MLflow 3 da Avaliação do Agente para atualizar seu código de Avaliação do Agente do MLflow 2 para usar o MLflow 3.