MLflow 3 para GenAI

MLflow 3 para GenAI é uma plataforma aberta que unifica acompanhamento, avaliação e observabilidade para aplicativos e agentes GenAI ao longo do ciclo de desenvolvimento e produção. Inclui registro de rastreamento em tempo real, avaliadores integrados e personalizados, incorporação de feedback humano e acompanhamento de versões para ajudá-lo a avaliar e melhorar a qualidade do aplicativo de forma eficiente durante o desenvolvimento e continuar o acompanhamento e aprimoramento da qualidade em produção.

O MLflow no Databricks amplia o código aberto MLflow com recursos projetados para aplicações GenAI de produção, incluindo governança pronta para empresas, hospedagem totalmente automatizada, escalabilidade em nível de produção e integração com seus dados no Databricks lakehouse e Unity Catalog.

Para obter informações sobre avaliação de agentes no MLflow 2, consulte Avaliação de AgentesMosaic AI (MLflow 2) e o guia de migração. Para MLflow 3, os métodos SDK de avaliação de agentes foram integrados ao Databricks-gerenciar MLflow.

Para um conjunto de tutoriais para você começar, veja Começar.

Como o MLflow 3 ajuda a otimizar a qualidade do aplicativo GenAI

A avaliação de aplicações e agentes de IA GenAI é mais complexa do que a avaliação de software tradicional. As entradas e saídas são frequentemente textos de formato livre, e muitas saídas diferentes podem ser consideradas corretas. A qualidade depende não apenas da correção, mas também de fatores como precisão, extensão, completude, adequação e outros critérios específicos para o caso de uso. Como os LLMs são inerentemente não determinísticos e os agentes GenAI incluem componentes adicionais, como mecanismos de recuperação e ferramentas, suas respostas podem variar de uma execução para outra.

Os desenvolvedores precisam de métricas de qualidade concretas, avaliação automatizada e monitoramento contínuo para criar e implantar aplicativos AI robustos. MLflow 3 para GenAI fornece esses elementos key para desenvolvimento, implementação e melhoria contínua eficientes:

O rastreamento logs automaticamente entradas, etapas intermediárias e saídas, fornecendo a base de dados para avaliação e monitoramento.
Os sistemas integrados e personalizados de avaliação e pontuação LLM permitem definir vários aspectos da qualidade e personalizar as métricas de acordo com o seu caso de uso.
Aplicativos de avaliação para feedback de especialistas permitem coletar e rotular conjuntos de dados para avaliação e alinhar juízes e avaliadores automatizados com o julgamento de especialistas.
A avaliação e o monitoramento automatizados utilizam os mesmos juízes e avaliadores durante o desenvolvimento e a produção.
O controle de versões de aplicativos e prompts permite comparar versões e acompanhar as melhorias ao longo das iterações.

Ao usar MLflow 3 no Databricks, você pode aplicar AI aos seus dados para obter uma compreensão mais profunda e melhorar a qualidade. O Unity Catalog oferece governança consistente para prompts, aplicativos e rastreamentos. Utilizando qualquer modelo ou framework, o MLflow oferece suporte durante todo o ciclo de desenvolvimento, até a produção.

Comece agora

Inicie a criação de aplicativos GenAI mais eficientes com ferramentas abrangentes de observabilidade e avaliação.

Tarefa	Descrição
Guia rápido para começar	Comece a usar em minutos com instruções passo a passo para instrumentar seu primeiro aplicativo com rastreamento, executar avaliações e coletar feedback humano.
Comece agora: MLflow Tracing para GenAI ( Notebook Databricks )	Crie um aplicativo GenAI simples para capturar automaticamente rastreamentos detalhados para depuração e otimização.
Tutorial: Avaliar e aprimorar um aplicativo GenAI	os passos para você avaliar um aplicativo de geração email que usa a Geração Aumentada por Recuperação (RAG).
Demonstração de 10 minutos: Coletar feedback humano	Recolha o feedback dos utilizadores finais, adicione anotações dos programadores, crie sessões de revisão por especialistas e utilize esse feedback para avaliar a qualidade da sua aplicação GenAI.

Rastreamento

MLflow Tracing oferece observabilidade e logs os dados de rastreamento necessários para avaliação e monitoramento.

Recurso	Descrição
MLflow Tracing	Observabilidade de ponta a ponta para aplicações GenAI, incluindo sistemas complexos baseados em agentes. Monitore entradas, saídas, etapas intermediárias e metadados para obter uma visão completa de como seu aplicativo se comporta.
O que é rastreamento?	Introdução aos conceitos de traçado.
Analise o comportamento e o desempenho do seu aplicativo.	A visibilidade completa da execução permite capturar solicitações, recuperações, chamadas de ferramentas, respostas, latência e custos.
Observabilidade da produção	Use a mesma instrumentação em ambientes de desenvolvimento e produção para uma avaliação consistente.
Construir conjunto de dados de avaliação	Analise os rastreamentos para identificar problemas de qualidade, selecione rastreamentos representativos, crie um conjunto de dados de avaliação e melhore sistematicamente sua aplicação.
Rastreamento de integrações	MLflow Tracing integra-se com diversas bibliotecas e frameworks para rastreamento automático, permitindo que você obtenha observabilidade imediata em suas aplicações GenAI com configuração mínima.

Avaliação e monitoramento

Substitua os testes manuais por avaliações automatizadas usando avaliadores e classificadores LLM integrados e personalizados que correspondem à experiência humana e podem ser aplicados tanto no desenvolvimento quanto na produção. Cada interação de produção se torna uma oportunidade de melhoria com feedback integrado e fluxo de trabalho de avaliação.

Recurso	Descrição
Avaliar e monitorar agentes GenAI	Visão geral da avaliação e monitoramento de agentes usando o MLflow 3 no Databricks.
Juízes e avaliadores de LLM	MLflow 3 inclui avaliadores LLM integrados para segurança, relevância, correção, qualidade de recuperação e muito mais. Você também pode criar juízes LLM personalizados e avaliadores baseados em código para atender às necessidades específicas do seu negócio.
Avaliação	Avaliação da execução durante o desenvolvimento ou como parte do processo de lançamento.
Produção	Monitore continuamente uma amostra do tráfego de produção usando juízes e avaliadores do LLM.
Coletar feedback humano	Coletar e utilizar o feedback de especialistas da área e usuários finais durante o desenvolvimento e a produção para melhoria contínua.

gerenciar o ciclo de vida do aplicativo GenAI

Versione, monitore e controle todo o seu aplicativo GenAI com ferramentas de gerenciamento e governança do ciclo de vida de nível corporativo.

Recurso	Descrição
Controle de versão do aplicativo	Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão.
Registro imediato	Gerenciamento centralizado para controle de versões e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração com o Unity Catalog.
Integração empresarial	Unity Catalog. Governança unificada para todos os recursos do AI ativo com segurança empresarial, controle de acesso e gerenciamento de identidade ( compliance ). Inteligência de dados. Conecte seus dados GenAI aos dados da sua empresa no lakehouse do Databricks e forneça análises personalizadas aos stakeholders da sua empresa. Serviço do Mosaic AI Agent. Implementamos agentes de produção com rigor operacional e escalabilidade.

Recurso

Descrição

Controle de versão do aplicativo

Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão.

Registro imediato

Gerenciamento centralizado para controle de versões e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração com o Unity Catalog.

Integração empresarial

Unity Catalog. Governança unificada para todos os recursos do AI ativo com segurança empresarial, controle de acesso e gerenciamento de identidade ( compliance ).

Inteligência de dados. Conecte seus dados GenAI aos dados da sua empresa no lakehouse do Databricks e forneça análises personalizadas aos stakeholders da sua empresa.

Serviço do Mosaic AI Agent. Implementamos agentes de produção com rigor operacional e escalabilidade.

Como o MLflow 3 ajuda a otimizar a qualidade do aplicativo GenAI​

Comece agora​

Rastreamento​

Avaliação e monitoramento​

gerenciar o ciclo de vida do aplicativo GenAI​

Como o MLflow 3 ajuda a otimizar a qualidade do aplicativo GenAI

Comece agora

Rastreamento

Avaliação e monitoramento

gerenciar o ciclo de vida do aplicativo GenAI