Treinamento distribuído em vários nós
Beta
Esse recurso está na versão beta.
Esta página fornece exemplos de Notebook para treinamento distribuído de vários nós usando GPU sem servidor compute. Esses exemplos demonstram como escalar o treinamento em várias GPUs e nós para melhorar o desempenho.
GPU sem servidor API: A10 starter
O Notebook a seguir fornece um exemplo básico de como usar a GPU sem servidor Python API para iniciar várias GPUs A10 para treinamento distribuído.
Notebook
Treinamento distribuído e varreduras de hiperparâmetros
O Notebook a seguir fornece um exemplo de treinamento distribuído e ajuste fino de varreduras de hiperparâmetros usando a GPU sem servidor Python API.
Notebook
Ajuste fino supervisionado distribuído usando TRL
Este Notebook demonstra como usar a GPU sem servidor Databricks para executar o ajuste fino supervisionado (SFT) usando a biblioteca TRL com a otimização DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.