Pular para o conteúdo principal

Treinamento distribuído em vários nós

info

Beta

Esse recurso está na versão beta.

Esta página fornece exemplos de Notebook para treinamento distribuído de vários nós usando GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.

GPU sem servidor API: A10 starter

O Notebook a seguir fornece um exemplo básico de como usar a GPU sem servidor Python API para iniciar várias GPUs A10 para treinamento distribuído.

Notebook

Open notebook in new tab

Treinamento distribuído e varreduras de hiperparâmetros

O Notebook a seguir fornece um exemplo de treinamento distribuído e ajuste fino de varreduras de hiperparâmetros usando a GPU sem servidor Python API.

Notebook

Open notebook in new tab

Ajuste fino supervisionado distribuído usando TRL

Este Notebook demonstra como usar a GPU sem servidor Databricks para executar o ajuste fino supervisionado (SFT) usando a biblioteca TRL com a otimização DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.

Notebook

Open notebook in new tab