Pular para o conteúdo principal

MLflow 3 para GenAI

Esta página descreve como o MLflow 3 for GenAI, integrado à plataforma Databricks, ajuda o senhor a criar aplicativos GenAI de nível de produção.

Os testes tradicionais de software e ML não foram criados para a linguagem de forma livre da GenAI , o que dificulta a medição e o aprimoramento da qualidade pelas equipes.

MLflow 3 resolve isso combinando as métricas doAIque medem de forma confiável a qualidade do GenAI com observabilidade de rastreamento abrangente, permitindo que o senhor meça , melhore e monitore a qualidade durante todo o ciclo de vida do aplicativo.

nota

A Avaliação de agentes está integrada ao gerenciar MLflow 3. Os métodos do Agent Evaluation SDK agora são expostos por meio do mlflow[databricks]>=3.1 SDK. Consulte o guia de migração para atualizar seu código de avaliação do MLflow 2 e do agente para os SDKs do MLflow 3.

Observe e depure aplicativos GenAI com rastreamento

O rastreamento permite que você veja exatamente o que seu aplicativo GenAI está fazendo com uma observabilidade abrangente que captura cada etapa da execução.

Python
# Just add one line to capture everything
mlflow.autolog()

# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!

Resumo do rastreamento

Avaliação automatizada da qualidade dos aplicativos GenAI

Substituir o teste manual por uma avaliação automatizada usando juízes de LLM que correspondam à experiência humana e possam ser aplicados tanto no desenvolvimento quanto na produção.

Juízes pré-construídos

  • Segurança - detecte conteúdo nocivo ou tóxico
  • Alucinação & Fundamentação - garanta que as respostas se mantenham no contexto recuperado
  • Relevância - verifique se as respostas atendem às solicitações do usuário
  • Exatidão - verifique se as respostas fornecem os mesmos fatos que as respostas verdadeiras
  • Qualidade da Recuperação - meça se o seu RAG encontra a informação correta

Juízes personalizados

  • Personalizado para sua empresa - crie juízes que cumpram seus requisitos específicos
  • Alinhado com especialistas - treine juízes para que correspondam ao julgamento de seus especialistas de domínio

Transforme dados de produção em melhorias

Cada interação de produção se torna uma oportunidade de melhoria com feedback integrado e fluxo de trabalho de avaliação.

Coleção de feedback de especialistas

  • Revisão e rótulo - as partes interessadas e os especialistas da empresa podem revisar e fornecer classificações, correções ou diretrizes sobre os traços de produção, sem escrever código
  • Teste ao vivo - as PMEs conversam com seu aplicativo e fornecem feedback instantâneo

Fechando o ciclo entre desenvolvimento e produção

Feedback do usuário final

  • Colete feedback - capture comentários e sugestões e comentários de forma programática a partir de seu aplicativo implantado
  • Link para rastreamentos - depure o feedback negativo com o contexto de execução completo

Comparação de avaliações

Gerenciar o ciclo de vida do aplicativo GenAI

Versione, monitore e controle todo o seu aplicativo GenAI com gerenciamento de ciclo de vida de nível corporativo.

Controle de versão de aplicativos

  • LoggedModels - rastreia o código, os parâmetros e as métricas de avaliação de cada versão
  • Linhagem completa - vincule traços, avaliações e feedback a versões específicas

Registro imediato (em breve)

  • Gerenciamento centralizado — versione e compartilhe solicitações em toda a sua organização
  • Teste A/B - implante várias versões de prompt sem alterações no código
  • Integração com o Unity Catalog - governança corporativa para seus prompts

Integração empresarial

Começar a criar melhores aplicativos de GenAI

:::tip Quick começar Pronto para instrumentar seu primeiro aplicativo ? Nosso guia de início rápido fará com que o senhor comece a trabalhar em minutos.

Começar →

Escolha seu caminho:

Por que as equipes escolhem o MLflow 3 para a GenAI

Plataforma unificada
Tudo o que o senhor precisa em um só lugar, desde a depuração do desenvolvimento até o monitoramento da produção.

Aberto e flexível
Base de código aberto sem dependência de fornecedores. Use qualquer provedor de LLM, qualquer estrutura.

Pronto para empresas
Criado na plataforma da Databricks com segurança, escala e governança empresariais.

Resultados comprovados
Junte-se a milhares de organizações que estão criando aplicativos GenAI de produção com MLflow.


Dê o primeiro passo. Siga nosso guia de início rápido e veja a execução de seu aplicativo GenAI em minutos.