Avalie o & Monitor
Os recursos de avaliação e monitoramento do MLflow ajudam o senhor a medir, melhorar e manter sistematicamente a qualidade dos seus aplicativos GenAI durante todo o ciclo de vida. Do desenvolvimento à produção, use os mesmos indicadores de qualidade para garantir que seus aplicativos forneçam respostas precisas e confiáveis e, ao mesmo tempo, gerenciem os custos e a latência.
Esta página apresenta uma visão geral dos principais conceitos de avaliação e monitoramento do fluxo de trabalho e fornece links para mais informações.
A Avaliação de agentes está integrada ao gerenciar MLflow 3. Os métodos do Agent Evaluation SDK agora são expostos por meio do mlflow[databricks]>=3.1
SDK. Consulte o guia de migração para atualizar seu código de avaliação do MLflow 2 e do agente para os SDKs do MLflow 3.
Avaliação durante o desenvolvimento
Teste e aprimore seu aplicativo GenAI de forma iterativa, executando avaliações com base em um conjunto de dados de avaliação selecionado usando avaliadores predefinidos e personalizados. O chicote de avaliação do MLflow ajuda o senhor a testar novas versões do seu aplicativo e solicita a fim de:
- Determine se suas alterações melhoraram a qualidade
- Identifique as causas principais dos problemas de qualidade
- Compare diferentes versões do seu aplicativo lado a lado
- Verifique se as mudanças não causaram regressões
monitoramento na produção
Beta
O monitoramento está em Beta.
Acompanhe continuamente o desempenho e a qualidade do seu aplicativo implantado. Os recursos de monitoramento do MLflow permitem que o senhor:
- Avalie automaticamente a qualidade usando os mesmos pontuadores do desenvolvimento
- Acompanhar as métricas operacionais (latência, custo, erros)
- Identificar consultas com baixo desempenho para criar um conjunto de dados de avaliação
Como começar
Comece com o Evaluation Quickstart para avaliar seu primeiro aplicativo GenAI em minutos.
Próximas etapas
Continue sua jornada com estas ações recomendadas e o tutorial.
- Avalie seu aplicativo - Conheça o fluxo de trabalho completo de avaliação
- Use os pontuadores predefinidos do LLM - comece com métricas de qualidade apoiadas por pesquisas
- Criar conjunto de dados de avaliação - Criar conjuntos de testes abrangentes a partir de dados de produção
Guia de referência
Explore a documentação detalhada dos conceitos e recursos mencionados neste guia.
- Pontuadores - Entenda como os pontuadores avaliam os aplicativos GenAI
- Juízes de LLM - Saiba como usar LLMs como avaliadores
- Evaluation Harness - Explore como o MLflow orquestra as avaliações