Avaliação e monitoramento
Os recursos de avaliação e monitoramento do MLflow ajudam você a medir, melhorar e manter sistematicamente a qualidade dos seus aplicativos GenAI durante todo o seu ciclo de vida, do desenvolvimento à produção.
Os aplicativos de IA generativa são complexos e envolvem muitos componentes diferentes. A avaliação do desempenho desses aplicativos não é tão simples quanto a avaliação do desempenho dos modelos tradicionais de ML. As métricas qualitativas e quantitativas usadas para avaliar a qualidade são inerentemente mais complexas.
O componente de avaliação e monitoramento do MLflow 3 foi projetado para ajudar você a identificar problemas de qualidade e a causa raiz desses problemas. Ele é baseado no MLflow Tracing, que fornece registro de rastreamento em tempo real nas fases de desenvolvimento, teste e produção. Ele também inclui pontuadores integrados baseados em LLMe um aplicativo de revisão integrado para coletar feedback humano. Conforme mostrado no diagrama, os mesmos pontuadores baseados em LLM são usados no desenvolvimento e na produção, garantindo uma avaliação consistente durante todo o ciclo de vida do aplicativo.
O diagrama mostra o fluxo de trabalho iterativo de alto nível.
Durante o desenvolvimento, você testa o aplicativo em um dataset de avaliação. Você também pode usar o aplicativo Review para desenvolver uma versão para seus especialistas de domínio testarem e adicionarem ao dataset de avaliação com base em suas interações com o aplicativo. Você pode usar pontuadores pré-criados MLflow ou pontuadores personalizados para avaliar o desempenho do aplicativo no dataset.
Após você colocar o aplicativo em produção, os mesmos scorers são usados para monitorar seu desempenho. Você pode salvar rastros MLflow de consultas de produção e adicioná-los ao dataset de avaliação para desenvolvimento iterativo de aplicativos no futuro.
Recurso | Descrição |
---|---|
O Notebook de exemplo orienta você na criação e no rastreamento de um aplicativo GenAI simples, definindo critérios de avaliação, executando a avaliação, revisando os resultados, modificando o prompt e reavaliando. | |
o passar pela avaliação completa do fluxo de trabalho. Aprenda a usar o conjunto de dados de avaliação para avaliar a qualidade, identificar problemas e melhorar seu aplicativo iterativamente. Crie um conjunto de dados de avaliação a partir do uso real. Use o recurso de avaliação para avaliar a qualidade usando pontuadores pré-criados e personalizados. visualizar resultados para ajudar a identificar as causas raiz dos problemas de qualidade. Compare versões para determinar se suas alterações melhoraram a qualidade e não causaram regressões. | |
Execute automaticamente marcadores nos rastreamentos do seu aplicativo GenAI de produção para monitorar continuamente a qualidade. Você pode programar qualquer scorer para avaliar automaticamente uma amostra do seu tráfego de produção. | |
Os avaliadores integrados baseados em LLMsão a maneira mais fácil de começar. | |
À medida que seu aplicativo se torna mais complexo, você pode criar pontuadores personalizados baseados em LLM para ajustar os critérios de avaliação aos requisitos comerciais específicos do seu caso de uso e para se alinhar ao julgamento dos seus especialistas no domínio. | |
Pontuadores personalizados oferecem flexibilidade para definir métricas de avaliação adaptadas ao seu caso de uso comercial específico. | |
Crie um conjunto de dados de avaliação para testar e melhorar sistematicamente a qualidade do seu aplicativo GenAI. Adicione rastreamentos de consultas de teste ou produção. |
A Avaliação do Agente é integrada ao gerenciar MLflow 3. Os métodos SDK de Avaliação do Agente agora estão disponíveis usando o mlflow[databricks]>=3.1
SDK. Consulte Migrar para o MLflow 3 da Avaliação do Agente para atualizar seu código de Avaliação do Agente do MLflow 2 para usar o MLflow 3.