GPU sem servidor compute

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Este artigo descreve a serverless GPU compute em Databricks e fornece casos de uso recomendados, orientação sobre como configurar a GPU compute recurso e limitações de recurso.

O que é serverless GPU compute?

GPU sem servidor compute faz parte da oferta sem servidor compute. A GPU sem servidor compute é especializada em cargas de trabalho personalizadas de aprendizagem profunda de um ou vários nós. O senhor pode usar a GPU serverless compute para treinar e ajustar modelos personalizados usando suas estruturas favoritas e obter eficiência, desempenho e qualidade de última geração.

GPU sem servidor compute inclui:

Uma experiência integrada no Notebook, Unity Catalog e MLflow : O senhor pode desenvolver seu código de forma interativa usando o Notebook.
Aceleradores de GPU A10s e H100s: Use as GPUs A10 para tarefas econômicas, de pequeno a médio machine learning e aprendizagem profunda, como os modelos clássicos ML ou o ajuste fino de modelos de idiomas menores. Escolha as GPUs H100 para cargas de trabalho de grande escala AI, incluindo treinamento ou ajuste fino de modelos maciços ou execução de tarefas avançadas de aprendizagem profunda.
Suporte a várias GPUs e vários nós: O senhor pode executar cargas de trabalho de treinamento distribuído com várias GPUs (A10s e H100s) e vários nós (somente A10s) usando a GPU sem servidor Python API. Consulte Treinamento distribuído.

O pacote pré-instalado no serverless GPU compute não substitui o Databricks Runtime ML. Embora haja um pacote comum, nem todas as dependências e biblioteca do Databricks Runtime ML são refletidas no ambiente do serverless GPU compute.

AmbientesPython em computede GPU sem servidor

Databricks fornece dois ambientes de gerenciamento para atender a diferentes casos de uso.

nota

Ambientes base de espaço de trabalho não são suportados para compute GPU serverless . Em vez disso, use o ambiente default ou AI e especifique as dependências adicionais diretamente no painel lateral Ambientes ou pip install elas.

ambiente base padrão

Isso proporciona um ambiente mínimo com uma API de cliente estável para garantir a compatibilidade da aplicação. Apenas os pacotes Python necessários estão instalados. Isso permite que a Databricks atualize o servidor de forma independente, oferecendo melhorias de desempenho, aprimoramentos de segurança e correções de bugs sem exigir nenhuma alteração de código nas cargas de trabalho. Este é o ambiente default quando você escolhe compute GPU serverless . Escolha este ambiente se desejar personalizar completamente o ambiente para seu treinamento.

Para obter mais detalhes sobre as versões de pacotes instaladas em diferentes versões, consulte as notas sobre a versão:

AmbienteAI

O ambiente AI Databricks está disponível no ambiente de GPU serverless 4. O ambiente AI é construído sobre o ambiente base default com pacotes de tempo de execução comuns e pacotes específicos para machine learning em GPUs. Contém bibliotecas populares de machine learning, incluindo PyTorch, LangChain, Transformers, Ray e XGBoost para treinamento e inferência de modelos. Escolha este ambiente para executar cargas de trabalho de treinamento.

Para obter mais detalhes sobre as versões de pacotes instaladas em diferentes versões, consulte as notas sobre a versão:

Ambiente AI 4

Casos de uso recomendados

Databricks recomenda a serverless GPU compute para qualquer caso de uso de treinamento de modelo que exija personalizações de treinamento e GPUs.

Por exemplo:

Ajuste fino do LLM
computador vision
Sistemas de recomendação
Aprendizagem por reforço
aprendizagem profunda baseada em previsão de séries temporais

Requisitos

Um workspace em us-west-2 ou us-east-1.

Configurar serverless GPU compute

Para conectar seu notebook ao serverless GPU compute e configurar o ambiente:

Em um Notebook, clique no menu suspenso Conectar na parte superior e selecione GPU sem servidor .
Clique em para abrir o painel lateral Ambiente .
Selecione A10 ou H100 no campo Acelerador .
Selecione Nenhum para o ambientedefault ou AI v4 para o ambienteAI no campo Ambiente base .
Se você escolher Nenhum no campo Ambiente base , selecione a Versão do ambiente .
Clique em Apply e, em seguida, confirme que deseja aplicar a GPU serverless compute ao ambiente do Notebook.

nota

A conexão com o site compute é encerrada automaticamente após 60 minutos de inatividade.

Adicionar biblioteca ao ambiente

O senhor pode instalar uma biblioteca adicional no ambiente serverless GPU compute. Consulte Adicionar dependências ao Notebook.

nota

Adicionar dependências usando o painel Ambientes , conforme mostrado em Adicionar dependências ao Notebook, não é compatível com uma tarefa agendada do GPU compute do serverless.

Criar e programar uma tarefa

As etapas a seguir mostram como criar e programar um trabalho para suas cargas de trabalho do serverless GPU compute. Para obter mais detalhes, consulte Criar e gerenciar tarefas agendadas do Notebook.

Após abrir o Caderno que deseja utilizar:

Selecione o botão programar no canto superior direito.
Selecione Adicionar programar .
Preencha o formulário Novo programar com o nomeJob , programar e compute .
Selecione Criar .

Também é possível criar e programar tarefas a partir da interface do usuário de tarefas e pipeline . Consulte Criar uma nova tarefa para obter orientações passo a passo.

Treinamento distribuído

nota

O treinamento distribuído com várias GPUs é compatível com os H100s e os A10s. O treinamento distribuído em vários nós só é compatível com as GPUs A10.

Veja Treinamento Distribuído.

Limitações

GPU sem servidor compute suporta apenas aceleradores A10 e H100.
Os aceleradores H100 suportam apenas fluxo de trabalho e Job de nó único. O fluxo de trabalho de vários nós em H100s ainda não é compatível.
O PrivateLink não é suportado. Armazenamento ou repositórios pip por trás do PrivateLink não são suportados.
A GPU sem servidor compute não é compatível com o espaço de trabalho do perfil de segurança compliance (como HIPAA ou PCT) . O processamento de dados regulamentados não é suportado no momento.
A GPU sem servidor compute é compatível apenas com ambientes interativos.
Para trabalhos agendados em compute de GPU sem servidor, o comportamento de recuperação automática para versões de pacotes incompatíveis associadas ao seu Notebook não é suportado.
O tempo máximo de execução de uma carga de trabalho é de sete dias. Para trabalhos de treinamento de modelo que excedam esse limite, implemente o ponto de verificação e reinicie o trabalho quando o tempo máximo de execução for atingido.

Carregamento de dados

Consulte Carregar dados em computeGPU sem servidor.

Melhores práticas

Consulte as Melhores práticas para computede GPU sem servidor.

Solucionar problemas de computação de GPU sem servidor

Se você encontrar problemas ao executar cargas de trabalho em compute de GPU sem servidor, consulte o guia de solução de problemas para problemas comuns, soluções alternativas e suporte a recursos.

Notebook exemplos

abaixo estão vários exemplos de Notebook que demonstram como usar compute de GPU sem servidor para diferentes tarefa.

Tarefa	Descrição
Grandes modelos de linguagem (LLMs)	Exemplos de ajuste fino de modelos de grandes linguagens, incluindo métodos eficientes em parâmetros, como adaptação de baixa classificação (LoRa) e abordagens de ajuste fino supervisionado.
computador vision	Exemplos de tarefas de visão computacional, incluindo detecção de objetos e classificação de imagens.
Sistemas de recomendação baseados em aprendizagem profunda	Exemplos para criar sistemas de recomendação usando abordagens modernas de aprendizagem profunda, como modelos de duas torres.
ML clássico	Exemplos de machine learning tarefa tradicional, incluindo XGBoost treinamento de modelos e previsão de séries temporais.
Treinamento distribuído com várias GPUs e vários nós	Exemplos de escalonamento de treinamento em várias GPUs e nós usando a API de GPU sem servidor, incluindo ajuste fino distribuído.

Exemplos de treinamento com múltiplas GPUs

Consulte o Notebook "Treinamento distribuído com múltiplas GPUs e múltiplos nós" para ver como usar várias bibliotecas de treinamento distribuído para treinamento com múltiplas GPUs.

O que é serverless GPU compute?​

AmbientesPython em computede GPU sem servidor​

ambiente base padrão​

AmbienteAI​

Casos de uso recomendados​

Requisitos​

Configurar serverless GPU compute​

Adicionar biblioteca ao ambiente​

Criar e programar uma tarefa​

Treinamento distribuído​

Limitações​

Carregamento de dados​

Melhores práticas​

Solucionar problemas de computação de GPU sem servidor​

Notebook exemplos​

Exemplos de treinamento com múltiplas GPUs​

O que é serverless GPU compute?

AmbientesPython em computede GPU sem servidor

ambiente base padrão

AmbienteAI

Casos de uso recomendados

Requisitos

Configurar serverless GPU compute

Adicionar biblioteca ao ambiente

Criar e programar uma tarefa

Treinamento distribuído

Limitações

Carregamento de dados

Melhores práticas

Solucionar problemas de computação de GPU sem servidor

Notebook exemplos

Exemplos de treinamento com múltiplas GPUs