IA e machine learning em Databricks
Este artigo descreve as ferramentas que o site Mosaic AI (anteriormente Databricks Machine Learning) fornece para ajudá-lo a criar sistemas IA e ML. O diagrama mostra como vários produtos da plataforma Databricks ajudam o senhor a implementar seu fluxo de trabalho de ponta a ponta para criar e implantar sistemas de IA e ML
IA generativa na Databricks
O Mosaic AI unifica o ciclo de vida da IA, desde a coleta e a preparação de dados, passando pelo desenvolvimento de modelos e LLMOps, até o atendimento e o monitoramento. Os recursos a seguir são especificamente otimizados para facilitar o desenvolvimento de aplicativos de AI generativa:
Unity Catalog para governança, descoberta, controle de versão e controle de acesso para dados, recursos, modelos e funções.
Mosaic AI Model Serving para a implantação de LLMs. Você pode configurar um endpoint de servindo modelo especificamente para acessar modelos de IA generativa:
LLMs abertos de última geração usando APIs do modelo básico.
Modelos de terceiros hospedados fora do Databricks. Consulte Modelos externos no Mosaic AI Model Serving.
O Mosaic AI Vector Search fornece um banco de dados vetorial consultável que armazena vetores de incorporação e pode ser configurado para sincronizar automaticamente com sua base de conhecimento.
Lakehouse Monitoring para monitoramento de dados e acompanhamento da qualidade e desvio de previsões de modelos usando o registro automático de carga útil com tabelas de inferência.
AI Playground para testar modelos generativos de IA em seu workspace da Databricks. Você pode solicitar, comparar e ajustar as configurações, como o prompt do sistema e os parâmetros de inferência.
Mosaic AI Model Training (anteriormente Foundation Model Training) para personalizar um modelo de base usando seus próprios dados para otimizar seu desempenho para sua aplicação específica.
Mosaic AI Estrutura de agentes para criar e implantar agentes com qualidade de produção, como os aplicativos Retrieval Augmented Generation (RAG).
Mosaic AI Agent Evaluation para avaliar a qualidade, o custo e a latência de aplicativos de IA generativa, incluindo aplicativos e cadeias RAG.
O que é IA generativa?
A IA generativa é um tipo de inteligência artificial focada na capacidade dos computadores de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos.
Os aplicativos de IA generativa são criados com base em modelos de IA generativa: grandes modelos de linguagem (LLMs) e modelos básicos.
Os LLMs são modelos de aprendizagem profunda que consomem e ensinam sobre conjuntos de dados maciços para se destacar na tarefa de processamento de linguagem. Eles criam novas combinações de texto que imitam a linguagem natural com base em seus dados de treinamento.
Os modelos generativos AI ou modelos de base são modelos ML grandes pré-treinados com a intenção de serem ajustados para tarefas mais específicas de compreensão e geração de linguagem. Esses modelos são usados para discernir padrões nos dados de entrada.
Após esses modelos completarem seus processos de aprendizado, juntos eles geram saídas estatisticamente prováveis quando solicitados e podem ser utilizados para realizar várias tarefas, incluindo:
Geração de imagens com base em imagens existentes ou utilizando o estilo de uma imagem para modificar ou criar uma nova.
Tarefas de fala, como transcrição, tradução, geração de perguntas/respostas e interpretação da intenção ou significado do texto.
Importante
Embora muitos LLMs ou outros modelos de IA generativa tenham salvaguardas, ainda podem gerar informações prejudiciais ou imprecisas.
A IA generativa tem os seguintes padrões de design:
Engenharia de prompts: elaboração de prompts especializados para orientar o comportamento do LLM
Geração Aumentada por Recuperação (RAG): Combinar um LLM com recuperação de conhecimento externo
Ajuste fino: adaptando um LLM pré-treinado a conjuntos de dados ou domínios específicos
Pré-treinamento: treinando um LLM do zero
Aprendizado de máquina no Databricks
Com o Mosaic AI, uma única plataforma atende a todos os passos do desenvolvimento e da implementação do ML, desde dados brutos até tabelas de inferência que salvam todas as solicitações e respostas de um modelo atendido. data scientistsO senhor pode usar o mesmo conjunto de ferramentas e uma única fonte de verdade para os dados, os engenheiros de dados, os engenheiros do ML e o DevOps.
O Mosaic AI unifica a camada de dados e a plataforma de ML. Todos os dados ativos e artefatos, como modelos e funções, podem ser descobertos e controlados em um único catálogo. O uso de uma única plataforma para dados e modelos possibilita o rastreamento da linhagem, desde os dados brutos até o modelo de produção. O monitoramento integrado de dados e modelos salva as métricas de qualidade em tabelas que também são armazenadas na plataforma, facilitando a identificação da causa raiz dos problemas de desempenho do modelo. Para obter mais informações sobre como Databricks suporta o ciclo de vida completo de ML e MLOps, consulte MLOps fluxo de trabalho em Databricks e MLOps Stacks: modelar o processo de desenvolvimento como código.
Alguns dos key componentes da plataforma de inteligência de dados são:
Tarefas |
Componente |
---|---|
Administrar e gerenciar dados, recursos, modelos e funções. Além disso, descoberta, controle de versão e linhagem. |
|
Acompanhar as alterações nos dados, na qualidade dos dados e na qualidade da previsão do modelo |
|
desenvolvimento e gerenciamento de recursos |
|
Modelos de ensino |
|
Acompanhar o desenvolvimento do modelo |
|
Servir modelos personalizados |
|
Criar um fluxo de trabalho automatizado e um pipeline ETL pronto para produção |
|
Integração do Git |
aprendizagem profunda na Databricks
Configurar a infraestrutura para aplicativos de aprendizagem profunda pode ser difícil. Databricks Runtime O Machine Learning cuida disso para o senhor, com o site clusters que tem versões compatíveis integradas da biblioteca profunda de aprendizagem mais comum, como TensorFlow, PyTorch e Keras.
Databricks Runtime ML clusters também incluem suporte pré-configurado para GPU com drivers e biblioteca de suporte. Ele também oferece suporte a bibliotecas como a Ray para paralelizar o processamento compute para dimensionar o fluxo de trabalho ML e os aplicativos ML.
Databricks Runtime ML clusters também incluem suporte pré-configurado para GPU com drivers e biblioteca de suporte. Mosaic AI Model Serving permite a criação de um endpoint de GPU escalável para modelos de aprendizagem profunda sem nenhuma configuração adicional.
Para aplicativos machine learning, a Databricks recomenda o uso de um cluster executando Databricks Runtime para Machine Learning. Consulte Criar um cluster usando o Databricks Runtime ML.
Para começar a usar aprendizagem profunda no Databricks, consulte: