Principais desafios no desenvolvimento de aplicativos GenAI e como o site MLflow ajuda
O MLflow foi desenvolvido para enfrentar o desafio fundamental de fornecer aplicativos de GenAI prontos para a produção: é difícil criar aplicativos que forneçam , de forma confiável, respostas de alta qualidade (precisas) com o custo e a latência ideais.
Os aplicativos GenAI não se comportam (ou falham) como um software comum. Eles podem ter alucinações, flutuar à medida que os dados mudam e, pior ainda, usuários reais expressam a mesma intenção de maneiras infinitas, de modo que o espaço de entrada é vasto e está sempre em fluxo. As abordagens tradicionais de teste de software e ML, projetadas para conjuntos conhecidos de entradas/saídas fixas e ações conhecidas do usuário, não podem medir de forma confiável a qualidade das entradas e saídas de linguagem de forma livre e em constante mudança da GenAI.
Para enfrentar esses desafios fundamentais, o MLflow reúne métricas que medem de forma confiável a qualidade da GenAI com observabilidade operacional em latência e custo, e fluxo de trabalho para coletar facilmente o feedback de especialistas humanos.
As entradas do usuário são de formato livre e em linguagem simples
O desafio
Uma única intenção pode ser expressada de várias maneiras: seu aplicativo precisa reconhecer todas elas.
Considere um chatbot para ajudar a responder às perguntas de suporte ao usuário. As seguintes intenções são as mesmas, embora as palavras sejam diferentes:
- " Meu Wi-Fi continua caindo — por favor, corrija isso. "
- " Você pode ajudar? A internet aqui está morta. "
Como o MLflow ajuda
MLflow's LLM os juízes avaliam a intenção, o tom e a factualidade em vez do exato strings, portanto, diferentes frases da mesma solicitação são avaliadas com base em seu significado. Essa avaliação semântica garante que seu aplicativo gerencie a variedade de maneiras pelas quais os usuários se expressam.
O rastreamento captura conversas completas, incluindo todas as variações de entrada, dando a você visibilidade de como os usuários realmente expressam as solicitações. Essa observabilidade abrangente ajuda você a entender toda a gama de entradas do usuário que seu aplicativo encontra.
As entradas do usuário evoluem com o tempo
O desafio
As intenções populares mudam com o tempo, mesmo que seu código não tenha mudado.
Você projetou seu aplicativo para ajudar com a intenção de " de interrupção de internet ", mas não previu que os usuários também perguntassem: " Vou receber um crédito na fatura pelo problema? "
Como o MLflow ajuda
MLflowpermitem capturar traços de produção em conjuntos de testes off-line, de modo que novas intenções (como perguntas sobre crédito de contas) tornam-se automaticamente casos de teste e regressão. Isso garante que seu aplicativo continue atendendo às necessidades emergentes dos usuários.
O monitoramento da produção rastreia continuamente os padrões de consulta e identifica novos tipos de solicitações. Ao analisar o tráfego real, você pode adaptar proativamente seu aplicativo à evolução do comportamento do usuário antes que a qualidade diminua.
As saídas GenAI são de formato livre e linguagem simples
O desafio
Duas respostas com palavras diferentes podem estar corretas, portanto, as verificações de qualidade devem comparar o significado, não strings.
As respostas a seguir são as mesmas, embora as palavras sejam completamente diferentes:
- " Desligue e desligue o modem desconectando-o por 30 segundos. "
- " Tente desligar o roteador por meio minuto e depois conecte-o novamente. "
Como o MLflow ajuda
Os juízes de LLM do MLflow avaliam o significado em vez de correspondências exatas de texto. Ao avaliar as respostas, os juízes entendem que " meio minuto " é igual a " 30 segundos " e que " power-cycle " e " desligar e ligar " são instruções equivalentes.
As mesmas verificações de qualidade funcionam perfeitamente no desenvolvimento, CI/CD e produção . Essa consistência significa que você pode confiar que as respostas validadas no desenvolvimento manterão sua qualidade na produção, independentemente das variações de redação.
É necessária experiência no domínio para avaliar a qualidade
O desafio
Os desenvolvedores geralmente não têm a profundidade do assunto para avaliar a exatidão; é necessária uma revisão especializada.
Para determinar se uma resposta está correta, o senhor precisa de um especialista para verificar se dizer aos usuários para pressionar Reset pin é seguro para o modelo de modem deles. A correção técnica requer conhecimento de domínio que as equipes de engenharia talvez não possuam.
Como o MLflow ajuda
O aplicativo de revisão do MLflow apresenta conversas completas para que os especialistas no domínio possam identificar problemas rapidamente. A interface intuitiva permite que especialistas não técnicos revisem os resultados do aplicativo sem precisar entender códigos ou ferramentas complexas.
O senhor pode escalar o feedback de especialistas de domínio usando o rótulo de especialista de alguns rastreamentos para criar juízes personalizados do LLM. Esses juízes aprendem com avaliações de especialistas, permitindo que você avalie automaticamente a qualidade das iterações e do tráfego de produção sem exigir uma análise humana de cada resposta.
Gerenciando a compensação de custos Quality ↔ Latency ↔
O desafio
Modelos mais rápidos e baratos economizam tempo e dinheiro, mas podem diminuir a qualidade da resposta — cada ajuste deve equilibrar os três.
Mudar do GPT-4o para o GPT-4O-Mini reduz drasticamente o tempo e o custo, mas o modelo menor pode perder a nuance nas perguntas de crédito, diminuindo a qualidade das respostas.
Como o MLflow ajuda
MLflow permite que o senhor execute muitas avaliações rapidamente para explorar as variantes em escala. Experimentos lado a lado expõem deltas de qualidade, latência e custo antes do lançamento, ajudando você a tomar decisões informadas sobre a seleção de modelos.
O rastreamento fornece observabilidade de ponta a ponta do desempenho do aplicativo, capturando métricas de latência e custo juntamente com avaliações de qualidade. Esse view unificado garante que o senhor possa otimizar as três dimensões simultaneamente, fazendo data-driven trade-offs que se alinham às suas necessidades comerciais.
A interface de usuário de avaliação permite que você compare diferentes versões do aplicativo lado a lado, visualizando como as mudanças nos modelos, solicitações ou códigos afetam os índices de qualidade, os tempos de resposta e os custos operacionais. Essa comparação abrangente garante que o senhor implante a configuração ideal para o seu caso de uso.
Próximas etapas
- Comece MLflow a usar o - Siga o guia de início rápido para rastrear seu primeiro aplicativo e avaliações de execução
- Entenda os conceitos do key - Aprenda sobre traces, scorers, conjunto de dados de avaliação e como eles funcionam juntos
- Explore o guia de avaliação - Aprofunde-se nos recursos de avaliação e monitoramento