Pular para o conteúdo principal

Principais desafios no desenvolvimento de aplicativos GenAI e como o site MLflow ajuda

O MLflow foi desenvolvido para enfrentar o desafio fundamental de fornecer aplicativos de GenAI prontos para a produção: é difícil criar aplicativos que forneçam , de forma confiável, respostas de alta qualidade (precisas) com o custo e a latência ideais.

Os aplicativos GenAI não se comportam (ou falham) como um software comum. Eles podem ter alucinações, flutuar à medida que os dados mudam e, pior ainda, usuários reais expressam a mesma intenção de maneiras infinitas, de modo que o espaço de entrada é vasto e está sempre em fluxo. As abordagens tradicionais de teste de software e ML, projetadas para conjuntos conhecidos de entradas/saídas fixas e ações conhecidas do usuário, não podem medir de forma confiável a qualidade das entradas e saídas de linguagem de forma livre e em constante mudança da GenAI.

Para enfrentar esses desafios fundamentais, o MLflow reúne métricas que medem de forma confiável a qualidade da GenAI com observabilidade operacional em latência e custo, e fluxo de trabalho para coletar facilmente o feedback de especialistas humanos.

As entradas do usuário são de formato livre e em linguagem simples

O desafio

Uma única intenção pode ser expressada de várias maneiras: seu aplicativo precisa reconhecer todas elas.

Considere um chatbot para ajudar a responder às perguntas de suporte ao usuário. As seguintes intenções são as mesmas, embora as palavras sejam diferentes:

  • " Meu Wi-Fi continua caindo — por favor, corrija isso. "
  • " Você pode ajudar? A internet aqui está morta. "

Como o MLflow ajuda

MLflow's LLM os juízes avaliam a intenção, o tom e a factualidade em vez do exato strings, portanto, diferentes frases da mesma solicitação são avaliadas com base em seu significado. Essa avaliação semântica garante que seu aplicativo gerencie a variedade de maneiras pelas quais os usuários se expressam.

O rastreamento captura conversas completas, incluindo todas as variações de entrada, dando a você visibilidade de como os usuários realmente expressam as solicitações. Essa observabilidade abrangente ajuda você a entender toda a gama de entradas do usuário que seu aplicativo encontra.

As entradas do usuário evoluem com o tempo

O desafio

As intenções populares mudam com o tempo, mesmo que seu código não tenha mudado.

Você projetou seu aplicativo para ajudar com a intenção de " de interrupção de internet ", mas não previu que os usuários também perguntassem: " Vou receber um crédito na fatura pelo problema? "

Como o MLflow ajuda

MLflowpermitem capturar traços de produção em conjuntos de testes off-line, de modo que novas intenções (como perguntas sobre crédito de contas) tornam-se automaticamente casos de teste e regressão. Isso garante que seu aplicativo continue atendendo às necessidades emergentes dos usuários.

O monitoramento da produção rastreia continuamente os padrões de consulta e identifica novos tipos de solicitações. Ao analisar o tráfego real, você pode adaptar proativamente seu aplicativo à evolução do comportamento do usuário antes que a qualidade diminua.

As saídas GenAI são de formato livre e linguagem simples

O desafio

Duas respostas com palavras diferentes podem estar corretas, portanto, as verificações de qualidade devem comparar o significado, não strings.

As respostas a seguir são as mesmas, embora as palavras sejam completamente diferentes:

  • " Desligue e desligue o modem desconectando-o por 30 segundos. "
  • " Tente desligar o roteador por meio minuto e depois conecte-o novamente. "

Como o MLflow ajuda

Os juízes de LLM do MLflow avaliam o significado em vez de correspondências exatas de texto. Ao avaliar as respostas, os juízes entendem que " meio minuto " é igual a " 30 segundos " e que " power-cycle " e " desligar e ligar " são instruções equivalentes.

As mesmas verificações de qualidade funcionam perfeitamente no desenvolvimento, CI/CD e produção . Essa consistência significa que você pode confiar que as respostas validadas no desenvolvimento manterão sua qualidade na produção, independentemente das variações de redação.

É necessária experiência no domínio para avaliar a qualidade

O desafio

Os desenvolvedores geralmente não têm a profundidade do assunto para avaliar a exatidão; é necessária uma revisão especializada.

Para determinar se uma resposta está correta, o senhor precisa de um especialista para verificar se dizer aos usuários para pressionar Reset pin é seguro para o modelo de modem deles. A correção técnica requer conhecimento de domínio que as equipes de engenharia talvez não possuam.

Como o MLflow ajuda

O aplicativo de revisão do MLflow apresenta conversas completas para que os especialistas no domínio possam identificar problemas rapidamente. A interface intuitiva permite que especialistas não técnicos revisem os resultados do aplicativo sem precisar entender códigos ou ferramentas complexas.

O senhor pode escalar o feedback de especialistas de domínio usando o rótulo de especialista de alguns rastreamentos para criar juízes personalizados do LLM. Esses juízes aprendem com avaliações de especialistas, permitindo que você avalie automaticamente a qualidade das iterações e do tráfego de produção sem exigir uma análise humana de cada resposta.

Gerenciando a compensação de custos Quality ↔ Latency ↔

O desafio

Modelos mais rápidos e baratos economizam tempo e dinheiro, mas podem diminuir a qualidade da resposta — cada ajuste deve equilibrar os três.

Mudar do GPT-4o para o GPT-4O-Mini reduz drasticamente o tempo e o custo, mas o modelo menor pode perder a nuance nas perguntas de crédito, diminuindo a qualidade das respostas.

Como o MLflow ajuda

MLflow permite que o senhor execute muitas avaliações rapidamente para explorar as variantes em escala. Experimentos lado a lado expõem deltas de qualidade, latência e custo antes do lançamento, ajudando você a tomar decisões informadas sobre a seleção de modelos.

O rastreamento fornece observabilidade de ponta a ponta do desempenho do aplicativo, capturando métricas de latência e custo juntamente com avaliações de qualidade. Esse view unificado garante que o senhor possa otimizar as três dimensões simultaneamente, fazendo data-driven trade-offs que se alinham às suas necessidades comerciais.

A interface de usuário de avaliação permite que você compare diferentes versões do aplicativo lado a lado, visualizando como as mudanças nos modelos, solicitações ou códigos afetam os índices de qualidade, os tempos de resposta e os custos operacionais. Essa comparação abrangente garante que o senhor implante a configuração ideal para o seu caso de uso.

Próximas etapas

  • Comece MLflow a usar o - Siga o guia de início rápido para rastrear seu primeiro aplicativo e avaliações de execução
  • Entenda os conceitos do key - Aprenda sobre traces, scorers, conjunto de dados de avaliação e como eles funcionam juntos
  • Explore o guia de avaliação - Aprofunde-se nos recursos de avaliação e monitoramento