Pular para o conteúdo principal

MLflow 3 para GenAI

Esta página descreve como o MLflow 3 for GenAI, integrado à plataforma Databricks, ajuda o senhor a criar aplicativos GenAI de nível de produção.

Os testes tradicionais de software e ML não são desenvolvidos para a linguagem livre da GenAI, dificultando a medição e a melhoria da qualidade pelas equipes. MLflow O 3 resolve isso combinando métricas baseadas em AIque medem de forma confiável a qualidade da GenAI com observabilidade de rastreamento abrangente, permitindo que você avalie, melhore e monitore a qualidade ao longo de todo o ciclo de vida da aplicação.

Ao utilizar o MLflow 3 para GenAI no Databricks, você obtém todas as vantagens da plataforma Databricks, incluindo as seguintes:

  • Plataforma unificada . Todo o processo de desenvolvimento da GenAI em um único lugar, desde a depuração do desenvolvimento até o monitoramento da produção.
  • Aberto e flexível . Utilize qualquer provedor de LLM e qualquer estrutura.
  • Pronto para uso corporativo . A plataforma Databricks oferece segurança, escalabilidade e governança corporativa.

Os métodos de avaliação de agentes ( SDK ) estão integrados com gerenciamento de tarefas ( Databricks) -gerenciar MLflow 3. Para obter informações sobre a avaliação de agentes no MLflow 2, consulte Mosaic AI Agent Evaluation (MLflow 2) e o guia de migração.

Para obter um conjunto de tutoriais para iniciar, consulte Iniciando com o MLflow 3 para GenAI.

nota

A coleta de telemetria de código aberto foi introduzida no MLflow 3.2.0. e está desativado em Databricks por default . Para obter mais detalhes, consulte a documentação de acompanhamento de uso doMLflow.

Observe e depure aplicativos GenAI com rastreamento

Veja exatamente o que seu aplicativo GenAI está fazendo com uma observabilidade abrangente que captura cada etapa da execução. Basta adicionar uma única linha de código, e o MLflow Tracing captura todas as solicitações, recuperações, chamadas de ferramentas, respostas, latência e contagens de tokens em todo o seu aplicativo.

Python
# Just add one line to capture everything
mlflow.autolog()

# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!

Comparação de avaliações

Recurso

Descrição

Instrumentação automática

Instrumentação de uma linha para mais de 20 bibliotecas, incluindo OpenAI, LangChain, LlamaIndex, Anthropic e DSPy.

Analise o comportamento e o desempenho do seu aplicativo.

A visibilidade completa da execução permite capturar solicitações, recuperações, chamadas de ferramentas, respostas, latência e custos.

Observabilidade da produção

Use a mesma instrumentação em ambientes de desenvolvimento e produção para uma avaliação consistente.

Compatibilidade com OpenTelemetry

Exporte rastreamentos em qualquer lugar, mantendo total propriedade de dados e flexibilidade de integração.

Avaliação automatizada da qualidade dos aplicativos GenAI

Substitua os testes manuais por avaliações automatizadas utilizando avaliadores integrados e personalizados baseados em LLM, que correspondem à experiência humana e podem ser aplicados tanto no desenvolvimento quanto na produção.

Recurso

Descrição

marcadores integrados

Pontuadores prontos para uso que avaliam segurança, alucinações, relevância, correção e qualidade de recuperação.

Marcadores personalizados

Crie juízes personalizados que cumpram seus requisitos comerciais específicos e se alinhem com a opinião de especialistas do domínio.

Transforme dados de produção em melhorias

Cada interação na produção se torna uma oportunidade de aprimoramento com feedback integrado e fluxo de trabalho de avaliação.

Resumo do rastreamento

Recurso

Descrição

Coleta de feedback de especialistas

O Review App fornece um processo estruturado e uma interface de usuário para coletar feedback de especialistas do domínio, incluindo classificações, correções e diretrizes sobre interações reais com seu aplicativo.

Teste de aplicativos ao vivo

Especialistas no assunto podem conversar com seu aplicativo e fornecer feedback instantâneo para melhoria contínua.

Conjunto de dados de avaliação da produção

O conjunto de dados de avaliação permite uma avaliação consistente e repetível. Traços de produção problemáticos se tornam casos de teste para melhoria contínua e testes de regressão.

Coleta de feedback do usuário

Capture e vincule o feedback do usuário a traços específicos para depuração e percepções de melhoria da qualidade. Colete curtidas/desaprovações e comentários de forma programática a partir do seu aplicativo implantado.

Avalie e melhore a qualidade com traços

Analise os traços para identificar problemas de qualidade, crie um conjunto de dados de avaliação a partir dos dados de traço, implemente melhorias direcionadas e avalie o impacto das suas alterações.

Gerenciar o ciclo de vida da sua aplicação GenAI

Versione, monitore e controle todo o seu aplicativo GenAI com ferramentas de gerenciamento e governança do ciclo de vida de nível corporativo.

Recurso

Descrição

Controle de versão do aplicativo

Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão.

Vinculação de rastreamento de produção

Vincule rastreamentos, avaliações e feedback a versões específicas do aplicativo.

Registro imediato

Gerenciamento centralizado para controle de versões e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração com o Unity Catalog.

Integração empresarial

Unity Catalog. Governança unificada para todos os recursos do AI ativo com segurança empresarial, controle de acesso e gerenciamento de identidade ( compliance ).

Inteligência de dados. Conecte seus dados GenAI aos dados da sua empresa no lakehouse do Databricks e forneça análises personalizadas aos stakeholders da sua empresa.

Serviço do Mosaic AI Agent. Implementamos agentes de produção com rigor operacional e escalabilidade.

Inicie com o MLflow 3 para GenAI

Inicie a criação de aplicativos GenAI mais eficientes com ferramentas abrangentes de observabilidade e avaliação.

Tarefa

Descrição

Guia rápido para começar

Comece a trabalhar em minutos com instruções detalhadas para instrumentar sua primeira aplicação.

Configuração do Databricks Notebook

Inicie em um ambiente gerenciado com dependências pré-configuradas e acesso instantâneo a recursos MLflow 3.

Desenvolvimento de IDE local

Desenvolva em sua máquina local com todos os recursos do MLflow 3 e integração perfeita com a nuvem.

Integração de inteligência de dados

Conecte seus dados GenAI aos dados comerciais no lakehouse do Databricks para obter análises e percepções personalizadas.