AI e aprendizado de máquina em Databricks

Este artigo descreve as ferramentas que o site Mosaic AI (anteriormente Databricks Machine Learning) fornece para ajudá-lo a criar os sistemas AI e ML. O diagrama mostra como vários produtos da plataforma Databricks ajudam o senhor a implementar seu fluxo de trabalho de ponta a ponta para criar e implantar os sistemas AI e ML.

Diagrama de machine learning: desenvolvimento e implementação de modelos no Databricks

Generative AI on Databricks

Mosaic AI unifica o ciclo de vida do AI, desde a coleta e a preparação de dados, passando pelo desenvolvimento de modelos e LLMOps, até o atendimento e o monitoramento. Os recursos a seguir são especificamente otimizados para facilitar o desenvolvimento de aplicativos generativos do AI:

Unity Catalog para governança, descoberta, controle de versão e controle de acesso a dados, recursos, modelos e funções.
MLflow para saber como medir, melhorar e monitorar a qualidade durante todo o ciclo de vida do aplicativo generativo AI.
Mosaic AI Gateway para governar e monitorar o acesso aos modelos generativos AI suportados e seu endpoint de modelo de serviço associado.
Mosaic AI Model Serving para LLMs implantados. O senhor pode configurar um modelo de serviço endpoint especificamente para acessar modelos generativos AI:
- LLMs abertos de última geração usando APIs do Foundation Model.
- Modelos de terceiros hospedados fora da Databricks. Consulte Modelos externos no Mosaic AI Model Serving.
O Mosaic AI Vector Search fornece um índice vetorial consultável que armazena vetores de incorporação e pode ser configurado para sincronizar automaticamente com sua base de conhecimento.
monitoramento de lagoas para monitoramento de dados e acompanhamento da qualidade e desvio da previsão do modelo usando o registro automático de carga útil com tabelas de inferência.
AI Playground para testar modelos generativos AI de seu Databricks workspace. Você pode solicitar, comparar e ajustar configurações como comandos do sistema e parâmetros de inferência.
Ajuste fino do modelo de fundação (agora parte do Mosaic AI Model treinamento) para personalizar um modelo de fundação usando seus próprios dados para otimizar seu desempenho para sua aplicação específica.
Mosaic AI Estrutura de agentes para criar e implantar agentes com qualidade de produção, como os aplicativos Retrieval Augmented Generation (RAG).
Mosaic AI Avaliação de agentes para avaliar a qualidade, o custo e a latência dos aplicativos generativos AI, incluindo aplicativos e cadeias RAG.

O que é generativo AI?

A IA generativa é um tipo de inteligência artificial focada na capacidade dos computadores de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos.

Os aplicativos de IA generativa são criados com base em modelos de IA generativa: grandes modelos de linguagem (LLMs) e modelos básicos.

Os LLMs são modelos de aprendizagem profunda que consomem e treinam em conjuntos de dados maciços para se destacarem na tarefa de processamento de linguagem. Eles criam novas combinações de texto que imitam a linguagem natural com base em seus dados de treinamento.
Os modelos generativos AI ou modelos de base são modelos ML grandes pré-treinados com a intenção de serem ajustados para tarefas mais específicas de compreensão e geração de linguagem. Esses modelos são usados para discernir padrões nos dados de entrada.

Após esses modelos completarem seus processos de aprendizado, juntos eles geram saídas estatisticamente prováveis quando solicitados e podem ser utilizados para realizar várias tarefas, incluindo:

Geração de imagens com base em imagens existentes ou utilizando o estilo de uma imagem para modificar ou criar uma nova.
Tarefas de fala, como transcrição, tradução, geração de perguntas/respostas e interpretação da intenção ou significado do texto.

important

Embora muitos LLMs ou outros modelos de IA generativa tenham salvaguardas, ainda podem gerar informações prejudiciais ou imprecisas.

A IA generativa tem os seguintes padrões de design:

Engenharia de prompts: elaboração de prompts especializados para orientar o comportamento do LLM
Geração Aumentada por Recuperação (RAG): Combinar um LLM com recuperação de conhecimento externo
Ajuste fino: adaptando um LLM pré-treinado a conjuntos de dados ou domínios específicos
Pré-treinamento: treinando um LLM do zero

Suporte para modelos AI generativos multimodais

Modelos generativos multimodelos AI processam e geram resultados em vários tipos de dados, como texto, imagens, áudio e vídeo. Databricks suporta uma variedade de modelos AI generativos multimodais que podem ser implantados via API ou no modo lotes, garantindo flexibilidade e escalabilidade em todos os cenários de implantação:

Modelos multimodais: Use modelos multimodais hospedados, como o Llama 3.2, e modelos externos, como o GPT-4o. Consulte Modelos de fundação suportados no Mosaic AI Model Serving.
Modelos ajustados e personalizados: ajuste os modelos para otimizá-los para casos de uso específicos. Consulte Ajuste fino do modelo básico.

Aprendizado de máquina no Databricks

Com o Mosaic AI, uma única plataforma atende a todas as etapas do desenvolvimento e da implementação de ML, desde os dados brutos até as tabelas de inferência que salvam todas as solicitações e respostas de um modelo atendido. data scientistsO senhor pode usar o mesmo conjunto de ferramentas e uma única fonte de verdade para os dados, os engenheiros de dados, os engenheiros do ML e o DevOps.

O Mosaic AI unifica a camada de dados e a plataforma de ML. Todos os dados ativos e artefatos, como modelos e funções, podem ser descobertos e controlados em um único catálogo. O uso de uma única plataforma para dados e modelos possibilita o rastreamento da linhagem, desde os dados brutos até o modelo de produção. O monitoramento integrado de dados e modelos salva as métricas de qualidade em tabelas que também são armazenadas na plataforma, facilitando a identificação da causa raiz dos problemas de desempenho do modelo. Para obter mais informações sobre como Databricks suporta o ciclo de vida completo de ML e MLOps, consulte MLOps fluxo de trabalho em Databricks e MLOps Stacks: modelar o processo de desenvolvimento como código.

Alguns dos key componentes da plataforma de inteligência de dados são:

Tarefas	Componente
Administrar e gerenciar dados, recursos, modelos e funções. Também descoberta, controle de versão e linhagem	Unity Catalog
Acompanhe as alterações nos dados, na qualidade dos dados e na qualidade da previsão do modelo	monitoramento de lagoas, tabelas de inferência para modelos personalizados
desenvolvimento e gerenciamento de recursos	recurso engenharia e servindo
Modelos de ensino	AutoML, Databricks Notebook
Acompanhar o desenvolvimento do modelo	MLflow 3, MLflow 2.x
Sirva modelos personalizados	Mosaic AI Model Serving
Criar um fluxo de trabalho automatizado e um pipeline ETL pronto para produção	Jobs do Lakeflow
Integração do Git	Pastas Git da Databricks

aprendizagem profunda on Databricks

Configurar a infraestrutura para aplicativos de aprendizagem profunda pode ser difícil. Databricks Runtime O Machine Learning cuida disso para o senhor, com agrupamentos que integram versões compatíveis da biblioteca profunda de aprendizagem mais comum, como TensorFlow, PyTorch e Keras.

Databricks Runtime ML O clustering também inclui suporte pré-configurado para GPU com drivers e biblioteca de suporte. Ele também oferece suporte a bibliotecas como a Ray para paralelizar o processamento compute para dimensionar o fluxo de trabalho ML e os aplicativos ML.

Databricks Runtime ML O clustering também inclui suporte pré-configurado para GPU com drivers e biblioteca de suporte. Mosaic AI Model Serving permite a criação de um endpoint de GPU escalável para modelos de aprendizagem profunda sem nenhuma configuração adicional.

Para aplicativos de aprendizado de máquina, o site Databricks recomenda o uso de um clustering em execução Databricks Runtime para aprendizado de máquina. Consulte Criar um clustering usando Databricks Runtime ML .

Para começar a usar aprendizagem profunda no Databricks, consulte:

Próximas etapas

Para começar, consulte:

AI e tutorial de aprendizado de máquina

Para obter um fluxo de trabalho MLOps recomendado no Databricks Mosaic AI, consulte:

Fluxos de trabalho de MLOps no Databricks

Para saber mais sobre key Databricks Mosaic AI recurso, consulte:

Generative AI on Databricks​

O que é generativo AI?​

Suporte para modelos AI generativos multimodais​

Aprendizado de máquina no Databricks​

aprendizagem profunda on Databricks​

Próximas etapas​