MLflow para o agente gen AI e o ciclo de vida do modelo ML

Este artigo descreve como MLflow o site on Databricks é usado para desenvolver agentes generativos de alta qualidade AI e modelos de aprendizado de máquina.

Observação

Se o senhor estiver começando a usar o Databricks, considere experimentar o MLflow on Databricks Community Edition.

O que é MLflow?

MLflow é uma plataforma de código aberto para o desenvolvimento de modelos e aplicativos generativos AI. Ele tem os seguintes componentes principais:

  • acompanhamento: Permite acompanhar experimentos para registrar e comparar parâmetros e resultados.

  • Modelos: Permite que o senhor gerencie e implante modelos de várias ML bibliotecas para várias plataformas de modelo de serviço e inferência.

  • Model Registry: Permite que o senhor gerencie o processo de implementação de modelos, desde a preparação até a produção, com recursos de versão e anotação de modelos.

  • AI Avaliação e rastreamento de agentes: Permite que o senhor desenvolva agentes de alta qualidade no site AI, ajudando-o a comparar, avaliar e solucionar problemas de agentes.

MLflow oferece suporte a APIs Java, Python, R e REST .

Databricks-gerenciar MLflow

Databricks oferece uma versão totalmente gerenciada e hospedada do MLflow, com base na experiência do código aberto para torná-lo mais robusto e dimensionável para uso corporativo.

O diagrama a seguir mostra como o Databricks se integra ao MLflow para treinar e implantar o modelo de aprendizado de máquina.

O MLflow se integra ao Databricks para gerenciar o ciclo de vida do ML.

Databricks-gerenciar MLflow foi desenvolvido com base em Unity Catalog e no lago de dados da nuvem para unificar todos os seus dados e AI ativos no ciclo de vida ML:

  1. recurso store: Databricks pesquisas automatizadas de recurso simplificam a integração e reduzem os erros.

  2. Treine modelos: Use o Mosaic AI para treinar modelos ou ajustar modelos básicos.

  3. acompanhamento: MLflow acompanha o treinamento registrando parâmetros, métricas e artefatos para avaliar e comparar o desempenho do modelo.

  4. Model Registry: MLflow Model Registry, integrado ao Unity Catalog, centraliza os modelos e artefatos do AI.

  5. servindo modelo: Mosaic AI Model Serving implantado modelos para a REST API endpoint.

  6. monitoramento: o site Mosaic AI Model Serving captura automaticamente solicitações e respostas para monitorar e depurar modelos. O MLflow aumenta esses dados com dados de rastreamento para cada solicitação.

Modelo treinamento

MLflow Os modelos estão no centro do desenvolvimento de AI e ML em Databricks. MLflow Os modelos são um formato padronizado para o empacotamento de modelos de aprendizado de máquina e de agentes AI generativos. O formato padronizado garante que os modelos e agentes possam ser usados por ferramentas downstream e fluxo de trabalho em Databricks.

  • Documentação do MLflow - Modelos.

Databricks fornece recurso para ajudá-lo a treinar diferentes tipos de modelos ML.

Experimentar acompanhamento

A Databricks usa experimentos MLflow como unidades organizacionais para acompanhar seu trabalho durante o desenvolvimento de modelos.

O acompanhamento de experimentos permite que o senhor log e gerencie parâmetros, métricas, artefatos e versões de código durante o treinamento de aprendizado de máquina e o desenvolvimento de agentes. A organização do logs em experimentos e execução permite comparar modelos, analisar o desempenho e iterar com mais facilidade.

Model Registry com Unity Catalog

O MLflow Model Registry é um repositório de modelos centralizado, uma interface do usuário e um conjunto de APIs para gerenciar o processo de implantação de modelos.

A Databricks integra o Model Registry ao Unity Catalog para fornecer governança centralizada para modelos. Unity Catalog permite que o senhor acesse modelos em todo o espaço de trabalho, rastreie a linhagem do modelo e descubra modelos para reutilização.

Servindo modelo

Databricks O servindo modelo é totalmente integrado ao MLflow Model Registry e oferece uma interface unificada e escalonável para implantar, governar e consultar modelos AI. Cada modelo que o senhor atende está disponível como uma API REST que pode ser integrada a aplicativos da Web ou de clientes.

Embora sejam componentes distintos, o servindo modelo depende muito do MLflow Model Registry para lidar com a versão do modelo, o gerenciamento de dependências, a validação e a governança.

AI desenvolvimento e avaliação de agentes

Para o desenvolvimento do agente AI, o Databricks se integra ao MLflow de forma semelhante ao desenvolvimento do modelo ML. No entanto, existem algumas diferenças key:

  • Para criar agentes AI em Databricks, use o Mosaic AI Agent Framework, que se baseia em MLflow para rastrear o código do agente, o desempenho métrico e os rastros do agente.

  • Para avaliar agentes em Databricks, use o Mosaic AI Agent Evaluation, que se baseia no MLflow para rastrear os resultados da avaliação.

  • MLflow O acompanhamento para agentes também inclui MLflow Tracing. MLflow O rastreamento permite que o senhor veja informações detalhadas sobre a execução do serviço do seu agente. O rastreamento registra as entradas, saídas e metadados associados a cada etapa intermediária de uma solicitação, permitindo que você encontre rapidamente a origem do comportamento inesperado nos agentes.

O diagrama a seguir mostra como o Databricks se integra ao MLflow para criar e implantar os agentes do AI.

O MLflow se integra ao Databricks para gerenciar o ciclo de vida do aplicativo genAI.

Databricks-gerenciar MLflow foi desenvolvido com base em Unity Catalog e no lago de dados da nuvem para unificar todos os seus dados e AI ativos no ciclo de vida do aplicativo genAI:

  1. Vector & recurso store: Databricks pesquisas automatizadas de vetores e recursos simplificam a integração e reduzem os erros.

  2. Crie e avalie os agentes do site AI: Mosaic AI Agent Framework e Agent Evaluation ajudam o senhor a criar agentes e avaliar seus resultados.

  3. acompanhamento e rastreamento: o rastreamento MLflow captura informações detalhadas sobre a execução do agente para melhorar a observabilidade da genAI.

  4. Model Registry: MLflow Model Registry, integrado ao Unity Catalog, centraliza os modelos e artefatos do AI.

  5. servindo modelo: Mosaic AI Model Serving implantado modelos para a REST API endpoint.

  6. monitoramento: o site MLflow captura automaticamente solicitações e respostas para monitorar e depurar modelos.

código aberto vs. Databricks-gerenciar MLflow recurso

Para conhecer os conceitos gerais do MLflow, APIs e os recursos compartilhados entre as versões do código aberto e do Databricks-gerenciar, consulte a documentação doMLflow . Para o recurso exclusivo do Databricks-gerenciar MLflow, consulte a documentação da Databricks.

A tabela a seguir destaca as diferenças key entre o código aberto MLflow e Databricks-gerenciar MLflow e fornece links de documentação para ajudá-lo a saber mais:

Recurso

Disponibilidade no MLflow de código aberto

Disponibilidade em Databricks-gerenciar MLflow

Segurança

O usuário deve fornecer sua própria camada de governança de segurança

Segurança de nível empresarial da Databricks

Disaster recovery

Indisponível

Recuperação de desastres da Databricks

Acompanhamento de experimentos

API de acompanhamento do MLflow

MLflow acompanhamento API integrado com Databricks acompanhamento avançado de experimentos

Registro de modelos

MLflow Model Registry

MLflow Model Registry integrado com Databricks Unity Catalog

Integração com o Unity Catalog

Integração de código aberto com o Unity Catalog

Databricks Unity Catalog

Implantação de modelos

Integrações configuradas pelo usuário com soluções de serviço externas (SageMaker, Kubernetes, serviços de contêineres, etc.)

Databricks servindo modelo e soluções de serviço externo

AI agentes

Desenvolvimento do MLflow LLM

MLflow LLM desenvolvimento integrado com Mosaic AI Agent Framework e Agent Evaluation

Criptografia

Indisponível

Criptografia usando a chave gerenciadora do cliente