Pular para o conteúdo principal

MLflow 3 para GenAI

MLflow 3 para GenAI é uma plataforma aberta que unifica acompanhamento, avaliação e observabilidade para aplicativos e agentes GenAI ao longo do ciclo de desenvolvimento e produção. Inclui registro de rastreamento em tempo real, avaliadores integrados e personalizados, incorporação de feedback humano e acompanhamento de versões para ajudá-lo a avaliar e melhorar a qualidade do aplicativo de forma eficiente durante o desenvolvimento e continuar o acompanhamento e aprimoramento da qualidade em produção.

O MLflow no Databricks amplia o código aberto MLflow com recursos projetados para aplicações GenAI de produção, incluindo governança pronta para empresas, hospedagem totalmente automatizada, escalabilidade em nível de produção e integração com seus dados no Databricks lakehouse e Unity Catalog.

Para obter informações sobre avaliação de agentes no MLflow 2, consulte Avaliação de AgentesMosaic AI (MLflow 2) e o guia de migração. Para MLflow 3, os métodos SDK de avaliação de agentes foram integrados ao Databricks-gerenciar MLflow.

Para um conjunto de tutoriais para você começar, veja Começar.

Como o MLflow 3 ajuda a otimizar a qualidade do aplicativo GenAI

A avaliação de aplicações e agentes de IA GenAI é mais complexa do que a avaliação de software tradicional. As entradas e saídas são frequentemente textos de formato livre, e muitas saídas diferentes podem ser consideradas corretas. A qualidade depende não apenas da correção, mas também de fatores como precisão, extensão, completude, adequação e outros critérios específicos para o caso de uso. Como os LLMs são inerentemente não determinísticos e os agentes GenAI incluem componentes adicionais, como mecanismos de recuperação e ferramentas, suas respostas podem variar de uma execução para outra.

Os desenvolvedores precisam de métricas de qualidade concretas, avaliação automatizada e monitoramento contínuo para criar e implantar aplicativos AI robustos. MLflow 3 para GenAI fornece esses elementos key para desenvolvimento, implementação e melhoria contínua eficientes:

Ao usar MLflow 3 no Databricks, você pode aplicar AI aos seus dados para obter uma compreensão mais profunda e melhorar a qualidade. O Unity Catalog oferece governança consistente para prompts, aplicativos e rastreamentos. Utilizando qualquer modelo ou framework, o MLflow oferece suporte durante todo o ciclo de desenvolvimento, até a produção.

Comece agora

Inicie a criação de aplicativos GenAI mais eficientes com ferramentas abrangentes de observabilidade e avaliação.

Tarefa

Descrição

Guia rápido para começar

Comece a usar em minutos com instruções passo a passo para instrumentar seu primeiro aplicativo com rastreamento, executar avaliações e coletar feedback humano.

Começar: Rastreando um aplicativo GenAI

Crie um aplicativo GenAI simples para capturar automaticamente rastreamentos detalhados para depuração e otimização.

Tutorial: Avaliar e aprimorar um aplicativo GenAI

os passos para você avaliar um aplicativo de geração email que usa a Geração Aumentada por Recuperação (RAG).

Demonstração de 10 minutos: Coletar feedback humano

Recolha o feedback dos utilizadores finais, adicione anotações dos programadores, crie sessões de revisão por especialistas e utilize esse feedback para avaliar a qualidade da sua aplicação GenAI.

Rastreamento

MLflow Tracing oferece observabilidade e logs os dados de rastreamento necessários para avaliação e monitoramento.

Recurso

Descrição

MLflow Tracing

Observabilidade de ponta a ponta para aplicações GenAI, incluindo sistemas complexos baseados em agentes. Monitore entradas, saídas, etapas intermediárias e metadados para obter uma visão completa de como seu aplicativo se comporta.

O que é rastreamento?

Introdução aos conceitos de traçado.

Analise o comportamento e o desempenho do seu aplicativo.

A visibilidade completa da execução permite capturar solicitações, recuperações, chamadas de ferramentas, respostas, latência e custos.

Observabilidade da produção

Use a mesma instrumentação em ambientes de desenvolvimento e produção para uma avaliação consistente.

Utilize rastros para avaliar e melhorar a qualidade.

Analise os rastreamentos para identificar problemas de qualidade, crie um conjunto de dados de avaliação a partir dos dados de rastreamento, faça melhorias direcionadas e meça o impacto das suas alterações.

Rastreamento de integrações

MLflow Tracing integra-se com diversas bibliotecas e frameworks para rastreamento automático, permitindo que você obtenha observabilidade imediata em suas aplicações GenAI com configuração mínima.

Avaliação e monitoramento

Substitua os testes manuais por avaliações automatizadas usando avaliadores e classificadores LLM integrados e personalizados que correspondem à experiência humana e podem ser aplicados tanto no desenvolvimento quanto na produção. Cada interação de produção se torna uma oportunidade de melhoria com feedback integrado e fluxo de trabalho de avaliação.

Recurso

Descrição

Avaliar e monitorar agentes GenAI

Visão geral da avaliação e monitoramento de agentes usando o MLflow 3 no Databricks.

Juízes e avaliadores de LLM

MLflow 3 inclui avaliadores LLM integrados para segurança, relevância, correção, qualidade de recuperação e muito mais. Você também pode criar juízes LLM personalizados e avaliadores baseados em código para atender às necessidades específicas do seu negócio.

Avaliação

Avaliação da execução durante o desenvolvimento ou como parte do processo de lançamento.

Produção

Monitore continuamente uma amostra do tráfego de produção usando juízes e avaliadores do LLM.

Coletar feedback humano

Coletar e utilizar o feedback de especialistas da área e usuários finais durante o desenvolvimento e a produção para melhoria contínua.

gerenciar o ciclo de vida do aplicativo GenAI

Versione, monitore e controle todo o seu aplicativo GenAI com ferramentas de gerenciamento e governança do ciclo de vida de nível corporativo.

Recurso

Descrição

Controle de versão do aplicativo

Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão.

Registro imediato

Gerenciamento centralizado para controle de versões e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração com o Unity Catalog.

Integração empresarial

Unity Catalog. Governança unificada para todos os recursos do AI ativo com segurança empresarial, controle de acesso e gerenciamento de identidade ( compliance ).

Inteligência de dados. Conecte seus dados GenAI aos dados da sua empresa no lakehouse do Databricks e forneça análises personalizadas aos stakeholders da sua empresa.

Serviço do Mosaic AI Agent. Implementamos agentes de produção com rigor operacional e escalabilidade.