MLflow 3 para GenAI
Esta página descreve como o MLflow 3 for GenAI, integrado à plataforma Databricks, ajuda o senhor a criar aplicativos GenAI de nível de produção.
Os testes tradicionais de software e ML não foram criados para a linguagem de forma livre da GenAI , o que dificulta a medição e o aprimoramento da qualidade pelas equipes.
MLflow 3 resolve isso combinando as métricas doAIque medem de forma confiável a qualidade do GenAI com observabilidade de rastreamento abrangente, permitindo que o senhor meça , melhore e monitore a qualidade durante todo o ciclo de vida do aplicativo.
A Avaliação de agentes está integrada ao gerenciar MLflow 3. Os métodos do Agent Evaluation SDK agora são expostos por meio do mlflow[databricks]>=3.1
SDK. Consulte o guia de migração para atualizar seu código de avaliação do MLflow 2 e do agente para os SDKs do MLflow 3.
Observe e depure aplicativos GenAI com rastreamento
O rastreamento permite que você veja exatamente o que seu aplicativo GenAI está fazendo com uma observabilidade abrangente que captura cada etapa da execução.
- Instrumentação de uma linha para mais de 20 bibliotecas, incluindo OpenAI, LangChain, LlamaIndex, Anthropic e DSPy
- Visibilidade completa da execução — solicitações, recuperações, chamadas de ferramentas, respostas, latência e custos
- Pronto para produção - a mesma instrumentação funciona em desenvolvimento e produção
- Compatível com OpenTelemetry - exporte rastreamentos em qualquer lugar, mantenha a propriedade total dos dados
# Just add one line to capture everything
mlflow.autolog()
# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!
Avaliação automatizada da qualidade dos aplicativos GenAI
Substituir o teste manual por uma avaliação automatizada usando juízes de LLM que correspondam à experiência humana e possam ser aplicados tanto no desenvolvimento quanto na produção.
Juízes pré-construídos
- Segurança - detecte conteúdo nocivo ou tóxico
- Alucinação & Fundamentação - garanta que as respostas se mantenham no contexto recuperado
- Relevância - verifique se as respostas atendem às solicitações do usuário
- Exatidão - verifique se as respostas fornecem os mesmos fatos que as respostas verdadeiras
- Qualidade da Recuperação - meça se o seu RAG encontra a informação correta
Juízes personalizados
- Personalizado para sua empresa - crie juízes que cumpram seus requisitos específicos
- Alinhado com especialistas - treine juízes para que correspondam ao julgamento de seus especialistas de domínio
Transforme dados de produção em melhorias
Cada interação de produção se torna uma oportunidade de melhoria com feedback integrado e fluxo de trabalho de avaliação.
Coleção de feedback de especialistas
- Revisão e rótulo - as partes interessadas e os especialistas da empresa podem revisar e fornecer classificações, correções ou diretrizes sobre os traços de produção, sem escrever código
- Teste ao vivo - as PMEs conversam com seu aplicativo e fornecem feedback instantâneo
Fechando o ciclo entre desenvolvimento e produção
- Conjunto de dados de avaliação da produção - transformar traços problemáticos em casos de teste
Feedback do usuário final
- Colete feedback - capture comentários e sugestões e comentários de forma programática a partir de seu aplicativo implantado
- Link para rastreamentos - depure o feedback negativo com o contexto de execução completo
Gerenciar o ciclo de vida do aplicativo GenAI
Versione, monitore e controle todo o seu aplicativo GenAI com gerenciamento de ciclo de vida de nível corporativo.
Controle de versão de aplicativos
- LoggedModels - rastreia o código, os parâmetros e as métricas de avaliação de cada versão
- Linhagem completa - vincule traços, avaliações e feedback a versões específicas
Registro imediato (em breve)
- Gerenciamento centralizado — versione e compartilhe solicitações em toda a sua organização
- Teste A/B - implante várias versões de prompt sem alterações no código
- Integração com o Unity Catalog - governança corporativa para seus prompts
Integração empresarial
- Unity Catalog - governança unificada para todos AI ativo
- Data Intelligence (Inteligência de dados ) - conecte seus dados GenAI aos dados de sua empresa no Databricks lakehouse e forneça análises personalizadas às partes interessadas de sua empresa
- Mosaic AI Agent Serving - implantação de agentes na produção com dimensionamento e rigor operacional
Começar a criar melhores aplicativos de GenAI
:::tip Quick começar Pronto para instrumentar seu primeiro aplicativo ? Nosso guia de início rápido fará com que o senhor comece a trabalhar em minutos.
Escolha seu caminho:
- Databricks Notebook - começar em um ambiente gerenciar
- IDE local - Desenvolva em sua máquina :::
Por que as equipes escolhem o MLflow 3 para a GenAI
Plataforma unificada
Tudo o que o senhor precisa em um só lugar, desde a depuração do desenvolvimento até o monitoramento da produção.
Aberto e flexível
Base de código aberto sem dependência de fornecedores. Use qualquer provedor de LLM, qualquer estrutura.
Pronto para empresas
Criado na plataforma da Databricks com segurança, escala e governança empresariais.
Resultados comprovados
Junte-se a milhares de organizações que estão criando aplicativos GenAI de produção com MLflow.
Dê o primeiro passo. Siga nosso guia de início rápido e veja a execução de seu aplicativo GenAI em minutos.