Pular para o conteúdo principal

AI e aprendizado de máquina em Databricks

Este artigo descreve as ferramentas que o site Mosaic AI (anteriormente Databricks Machine Learning) fornece para ajudá-lo a criar os sistemas AI e ML. O diagrama mostra como vários produtos da plataforma Databricks ajudam o senhor a implementar seu fluxo de trabalho de ponta a ponta para criar e implantar os sistemas AI e ML.

Diagrama de machine learning: desenvolvimento e implementação de modelos no Databricks

Generative AI on Databricks

Mosaic AI unifica o ciclo de vida do AI, desde a coleta e a preparação de dados, passando pelo desenvolvimento de modelos e LLMOps, até o atendimento e o monitoramento. Os recursos a seguir são especificamente otimizados para facilitar o desenvolvimento de aplicativos generativos do AI:

  • Unity Catalog para governança, descoberta, controle de versão e controle de acesso a dados, recursos, modelos e funções.

  • MLflow para acompanhamento do desenvolvimento de modelos e avaliação do siteLLM.

  • Mosaic AI Gateway para governar e monitorar o acesso aos modelos generativos AI suportados e seu endpoint de modelo de serviço associado.

  • Mosaic AI Model Serving para LLMs implantados. O senhor pode configurar um modelo de serviço endpoint especificamente para acessar modelos generativos AI:

  • monitoramento de lakehouse para monitoramento de dados e acompanhamento da qualidade e desvio da previsão do modelo.

  • O Mosaic AI Vector Search fornece um banco de dados vetorial consultável que armazena vetores de incorporação e pode ser configurado para sincronizar automaticamente com sua base de conhecimento.

  • AI Playground para testar modelos generativos AI de seu Databricks workspace. Você pode solicitar, comparar e ajustar configurações como comandos do sistema e parâmetros de inferência.

O que é generativo AI?

A IA generativa é um tipo de inteligência artificial focada na capacidade dos computadores de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos.

Os aplicativos de IA generativa são criados com base em modelos de IA generativa: grandes modelos de linguagem (LLMs) e modelos básicos.

  • Os LLMs são modelos de aprendizagem profunda que consomem e treinam em conjuntos de dados maciços para se destacarem na tarefa de processamento de linguagem. Eles criam novas combinações de texto que imitam a linguagem natural com base em seus dados de treinamento.
  • Os modelos generativos AI ou modelos de base são modelos ML grandes pré-treinados com a intenção de serem ajustados para tarefas mais específicas de compreensão e geração de linguagem. Esses modelos são usados para discernir padrões nos dados de entrada.

Após esses modelos completarem seus processos de aprendizado, juntos eles geram saídas estatisticamente prováveis quando solicitados e podem ser utilizados para realizar várias tarefas, incluindo:

  • Geração de imagens com base em imagens existentes ou utilizando o estilo de uma imagem para modificar ou criar uma nova.
  • Tarefas de fala, como transcrição, tradução, geração de perguntas/respostas e interpretação da intenção ou significado do texto.
important

Embora muitos LLMs ou outros modelos de IA generativa tenham salvaguardas, ainda podem gerar informações prejudiciais ou imprecisas.

A IA generativa tem os seguintes padrões de design:

  • Engenharia de prompts: elaboração de prompts especializados para orientar o comportamento do LLM
  • Geração Aumentada por Recuperação (RAG): Combinar um LLM com recuperação de conhecimento externo
  • Ajuste fino: adaptando um LLM pré-treinado a conjuntos de dados ou domínios específicos
  • Pré-treinamento: treinando um LLM do zero

Aprendizado de máquina no Databricks

Com o Mosaic AI, uma única plataforma atende a todas as etapas do desenvolvimento e da implementação de ML, desde os dados brutos até as tabelas de inferência que salvam todas as solicitações e respostas de um modelo atendido. data scientistsO senhor pode usar o mesmo conjunto de ferramentas e uma única fonte de verdade para os dados, os engenheiros de dados, os engenheiros do ML e o DevOps.

O Mosaic AI unifica a camada de dados e a plataforma de ML. Todos os dados ativos e artefatos, como modelos e funções, podem ser descobertos e controlados em um único catálogo. O uso de uma única plataforma para dados e modelos possibilita o rastreamento da linhagem, desde os dados brutos até o modelo de produção. O monitoramento integrado de dados e modelos salva as métricas de qualidade em tabelas que também são armazenadas na plataforma, facilitando a identificação da causa raiz dos problemas de desempenho do modelo. Para obter mais informações sobre como Databricks suporta o ciclo de vida completo de ML e MLOps, consulte MLOps fluxo de trabalho em Databricks e MLOps Stacks: modelar o processo de desenvolvimento como código.

Alguns dos key componentes da plataforma de inteligência de dados são:

Tarefas

Componente

Administrar e gerenciar dados, recursos, modelos e funções. Também descoberta, controle de versão e linhagem.

Unity Catalog

Acompanhe as alterações nos dados, na qualidade dos dados e na qualidade da previsão do modelo

Monitoramento do lakehouse

desenvolvimento e gerenciamento de recursos

recurso engenharia

Modelos de ensino

AutoML, Databricks Notebook

Acompanhar o desenvolvimento do modelo

MLflow acompanhamento

Sirva modelos personalizados

Mosaic AI Model Serving

Criar um fluxo de trabalho automatizado e um pipeline ETL pronto para produção

Jobs do Databricks

Integração do Git

Pastas Git da Databricks

aprendizagem profunda on Databricks

Configurar a infraestrutura para aplicativos de aprendizagem profunda pode ser difícil. Databricks Runtime O Machine Learning cuida disso para o senhor, com agrupamentos que integram versões compatíveis da biblioteca profunda de aprendizagem mais comum, como TensorFlow, PyTorch e Keras.

Databricks Runtime ML O clustering também inclui suporte pré-configurado para GPU com drivers e biblioteca de suporte. Ele também oferece suporte a bibliotecas como a Ray para paralelizar o processamento compute para dimensionar o fluxo de trabalho ML e os aplicativos ML.

Para aplicativos de aprendizado de máquina, o site Databricks recomenda o uso de um clustering em execução Databricks Runtime para aprendizado de máquina. Consulte Criar um clustering usando Databricks Runtime ML .

Para começar a usar aprendizagem profunda no Databricks, consulte:

Próximas etapas

Para começar, consulte:

Para obter um fluxo de trabalho MLOps recomendado no Databricks Mosaic AI, consulte:

Para saber mais sobre key Databricks Mosaic AI recurso, consulte: