AI e aprendizado de máquina em Databricks
Este artigo descreve as ferramentas que o site Mosaic AI (anteriormente Databricks Machine Learning) fornece para ajudá-lo a criar os sistemas AI e ML. O diagrama mostra como vários produtos da plataforma Databricks ajudam o senhor a implementar seu fluxo de trabalho de ponta a ponta para criar e implantar os sistemas AI e ML.
Generative AI on Databricks
Mosaic AI unifica o ciclo de vida do AI, desde a coleta e a preparação de dados, passando pelo desenvolvimento de modelos e LLMOps, até o atendimento e o monitoramento. Os recursos a seguir são especificamente otimizados para facilitar o desenvolvimento de aplicativos generativos do AI:
-
Unity Catalog para governança, descoberta, controle de versão e controle de acesso a dados, recursos, modelos e funções.
-
MLflow para acompanhamento do desenvolvimento de modelos e avaliação do siteLLM.
-
Mosaic AI Gateway para governar e monitorar o acesso aos modelos generativos AI suportados e seu endpoint de modelo de serviço associado.
-
Mosaic AI Model Serving para LLMs implantados. O senhor pode configurar um modelo de serviço endpoint especificamente para acessar modelos generativos AI:
- Modelos de terceiros hospedados fora da Databricks. Consulte Modelos externos no Mosaic AI Model Serving.
-
monitoramento de lakehouse para monitoramento de dados e acompanhamento da qualidade e desvio da previsão do modelo.
-
O Mosaic AI Vector Search fornece um banco de dados vetorial consultável que armazena vetores de incorporação e pode ser configurado para sincronizar automaticamente com sua base de conhecimento.
-
AI Playground para testar modelos generativos AI de seu Databricks workspace. Você pode solicitar, comparar e ajustar configurações como comandos do sistema e parâmetros de inferência.
O que é generativo AI?
A IA generativa é um tipo de inteligência artificial focada na capacidade dos computadores de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos.
Os aplicativos de IA generativa são criados com base em modelos de IA generativa: grandes modelos de linguagem (LLMs) e modelos básicos.
- Os LLMs são modelos de aprendizagem profunda que consomem e treinam em conjuntos de dados maciços para se destacarem na tarefa de processamento de linguagem. Eles criam novas combinações de texto que imitam a linguagem natural com base em seus dados de treinamento.
- Os modelos generativos AI ou modelos de base são modelos ML grandes pré-treinados com a intenção de serem ajustados para tarefas mais específicas de compreensão e geração de linguagem. Esses modelos são usados para discernir padrões nos dados de entrada.
Após esses modelos completarem seus processos de aprendizado, juntos eles geram saídas estatisticamente prováveis quando solicitados e podem ser utilizados para realizar várias tarefas, incluindo:
- Geração de imagens com base em imagens existentes ou utilizando o estilo de uma imagem para modificar ou criar uma nova.
- Tarefas de fala, como transcrição, tradução, geração de perguntas/respostas e interpretação da intenção ou significado do texto.
Embora muitos LLMs ou outros modelos de IA generativa tenham salvaguardas, ainda podem gerar informações prejudiciais ou imprecisas.
A IA generativa tem os seguintes padrões de design:
- Engenharia de prompts: elaboração de prompts especializados para orientar o comportamento do LLM
- Geração Aumentada por Recuperação (RAG): Combinar um LLM com recuperação de conhecimento externo
- Ajuste fino: adaptando um LLM pré-treinado a conjuntos de dados ou domínios específicos
- Pré-treinamento: treinando um LLM do zero
Aprendizado de máquina no Databricks
Com o Mosaic AI, uma única plataforma atende a todas as etapas do desenvolvimento e da implementação de ML, desde os dados brutos até as tabelas de inferência que salvam todas as solicitações e respostas de um modelo atendido. data scientistsO senhor pode usar o mesmo conjunto de ferramentas e uma única fonte de verdade para os dados, os engenheiros de dados, os engenheiros do ML e o DevOps.
O Mosaic AI unifica a camada de dados e a plataforma de ML. Todos os dados ativos e artefatos, como modelos e funções, podem ser descobertos e controlados em um único catálogo. O uso de uma única plataforma para dados e modelos possibilita o rastreamento da linhagem, desde os dados brutos até o modelo de produção. O monitoramento integrado de dados e modelos salva as métricas de qualidade em tabelas que também são armazenadas na plataforma, facilitando a identificação da causa raiz dos problemas de desempenho do modelo. Para obter mais informações sobre como Databricks suporta o ciclo de vida completo de ML e MLOps, consulte MLOps fluxo de trabalho em Databricks e MLOps Stacks: modelar o processo de desenvolvimento como código.
Alguns dos key componentes da plataforma de inteligência de dados são:
Tarefas | Componente |
---|---|
Administrar e gerenciar dados, recursos, modelos e funções. Também descoberta, controle de versão e linhagem. | |
Acompanhe as alterações nos dados, na qualidade dos dados e na qualidade da previsão do modelo | |
desenvolvimento e gerenciamento de recursos | |
Modelos de ensino | |
Acompanhar o desenvolvimento do modelo | |
Sirva modelos personalizados | |
Criar um fluxo de trabalho automatizado e um pipeline ETL pronto para produção | |
Integração do Git |
aprendizagem profunda on Databricks
Configurar a infraestrutura para aplicativos de aprendizagem profunda pode ser difícil. Databricks Runtime O Machine Learning cuida disso para o senhor, com agrupamentos que integram versões compatíveis da biblioteca profunda de aprendizagem mais comum, como TensorFlow, PyTorch e Keras.
Databricks Runtime ML O clustering também inclui suporte pré-configurado para GPU com drivers e biblioteca de suporte. Ele também oferece suporte a bibliotecas como a Ray para paralelizar o processamento compute para dimensionar o fluxo de trabalho ML e os aplicativos ML.
Para aplicativos de aprendizado de máquina, o site Databricks recomenda o uso de um clustering em execução Databricks Runtime para aprendizado de máquina. Consulte Criar um clustering usando Databricks Runtime ML .
Para começar a usar aprendizagem profunda no Databricks, consulte:
- Práticas recomendadas para aprendizagem profunda no Databricks
- aprendizagem profunda on Databricks
- Soluções de referência para aprendizagem profunda
Próximas etapas
Para começar, consulte:
Para obter um fluxo de trabalho MLOps recomendado no Databricks Mosaic AI, consulte:
Para saber mais sobre key Databricks Mosaic AI recurso, consulte: