MLflow 3 para GenAI
Esta página descreve como o MLflow 3 for GenAI, integrado à plataforma Databricks, ajuda o senhor a criar aplicativos GenAI de nível de produção.
Os testes tradicionais de software e ML não são desenvolvidos para a linguagem livre da GenAI, dificultando a medição e a melhoria da qualidade pelas equipes. MLflow O 3 resolve isso combinando métricas baseadas em AIque medem de forma confiável a qualidade da GenAI com observabilidade de rastreamento abrangente, permitindo que você avalie, melhore e monitore a qualidade ao longo de todo o ciclo de vida da aplicação.
Ao utilizar o MLflow 3 para GenAI no Databricks, você obtém todas as vantagens da plataforma Databricks, incluindo as seguintes:
- Plataforma unificada . Todo o processo de desenvolvimento da GenAI em um único lugar, desde a depuração do desenvolvimento até o monitoramento da produção.
- Aberto e flexível . Utilize qualquer provedor de LLM e qualquer estrutura.
- Pronto para uso corporativo . A plataforma Databricks oferece segurança, escalabilidade e governança corporativa.
Os métodos de avaliação de agentes ( SDK ) estão integrados com gerenciamento de tarefas ( Databricks) -gerenciar MLflow 3. Para obter informações sobre a avaliação de agentes no MLflow 2, consulte Mosaic AI Agent Evaluation (MLflow 2) e o guia de migração.
Para obter um conjunto de tutoriais para iniciar, consulte Iniciando com o MLflow 3 para GenAI.
A coleta de telemetria de código aberto foi introduzida no MLflow 3.2.0. e está desativado em Databricks por default . Para obter mais detalhes, consulte a documentação de acompanhamento de uso doMLflow.
Observe e depure aplicativos GenAI com rastreamento
Veja exatamente o que seu aplicativo GenAI está fazendo com uma observabilidade abrangente que captura cada etapa da execução. Basta adicionar uma única linha de código, e o MLflow Tracing captura todas as solicitações, recuperações, chamadas de ferramentas, respostas, latência e contagens de tokens em todo o seu aplicativo.
# Just add one line to capture everything
mlflow.autolog()
# Your existing code works unchanged
response = client.chat.completions.create(...)
# Traces are automatically captured!
Recurso | Descrição |
---|---|
Instrumentação de uma linha para mais de 20 bibliotecas, incluindo OpenAI, LangChain, LlamaIndex, Anthropic e DSPy. | |
A visibilidade completa da execução permite capturar solicitações, recuperações, chamadas de ferramentas, respostas, latência e custos. | |
Use a mesma instrumentação em ambientes de desenvolvimento e produção para uma avaliação consistente. | |
Exporte rastreamentos em qualquer lugar, mantendo total propriedade de dados e flexibilidade de integração. |
Avaliação automatizada da qualidade dos aplicativos GenAI
Substitua os testes manuais por avaliações automatizadas utilizando avaliadores integrados e personalizados baseados em LLM, que correspondem à experiência humana e podem ser aplicados tanto no desenvolvimento quanto na produção.
Recurso | Descrição |
---|---|
Pontuadores prontos para uso que avaliam segurança, alucinações, relevância, correção e qualidade de recuperação. | |
Crie juízes personalizados que cumpram seus requisitos comerciais específicos e se alinhem com a opinião de especialistas do domínio. |
Transforme dados de produção em melhorias
Cada interação na produção se torna uma oportunidade de aprimoramento com feedback integrado e fluxo de trabalho de avaliação.
Recurso | Descrição |
---|---|
O Review App fornece um processo estruturado e uma interface de usuário para coletar feedback de especialistas do domínio, incluindo classificações, correções e diretrizes sobre interações reais com seu aplicativo. | |
Especialistas no assunto podem conversar com seu aplicativo e fornecer feedback instantâneo para melhoria contínua. | |
O conjunto de dados de avaliação permite uma avaliação consistente e repetível. Traços de produção problemáticos se tornam casos de teste para melhoria contínua e testes de regressão. | |
Capture e vincule o feedback do usuário a traços específicos para depuração e percepções de melhoria da qualidade. Colete curtidas/desaprovações e comentários de forma programática a partir do seu aplicativo implantado. | |
Analise os traços para identificar problemas de qualidade, crie um conjunto de dados de avaliação a partir dos dados de traço, implemente melhorias direcionadas e avalie o impacto das suas alterações. |
Gerenciar o ciclo de vida da sua aplicação GenAI
Versione, monitore e controle todo o seu aplicativo GenAI com ferramentas de gerenciamento e governança do ciclo de vida de nível corporativo.
Recurso | Descrição |
---|---|
Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão. | |
Vincule rastreamentos, avaliações e feedback a versões específicas do aplicativo. | |
Gerenciamento centralizado para controle de versões e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração com o Unity Catalog. | |
Integração empresarial | Unity Catalog. Governança unificada para todos os recursos do AI ativo com segurança empresarial, controle de acesso e gerenciamento de identidade ( compliance ). Inteligência de dados. Conecte seus dados GenAI aos dados da sua empresa no lakehouse do Databricks e forneça análises personalizadas aos stakeholders da sua empresa. Serviço do Mosaic AI Agent. Implementamos agentes de produção com rigor operacional e escalabilidade. |
Inicie com o MLflow 3 para GenAI
Inicie a criação de aplicativos GenAI mais eficientes com ferramentas abrangentes de observabilidade e avaliação.
Tarefa | Descrição |
---|---|
Comece a trabalhar em minutos com instruções detalhadas para instrumentar sua primeira aplicação. | |
Inicie em um ambiente gerenciado com dependências pré-configuradas e acesso instantâneo a recursos MLflow 3. | |
Desenvolva em sua máquina local com todos os recursos do MLflow 3 e integração perfeita com a nuvem. | |
Conecte seus dados GenAI aos dados comerciais no lakehouse do Databricks para obter análises e percepções personalizadas. |