Exemplos da CLI do AI Runtime
info
Beta
Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.
Os exemplos a seguir são cargas de trabalho completas e de ponta a ponta, enviadas a partir da CLI air com air run -f train.yaml. Cada um mostra um padrão real de treinamento distribuído em GPUs H100, incluindo o YAML de workload, script de inicialização e código de treinamento. Inicie com o início rápido se você ainda não enviou uma execução.
-
- Ajuste fino de LLM multi-nó com FSDP
- Ajuste fino supervisionado de Llama-3.1-8B em 16 GPUs H100 (2 nós) utilizando
torchrune PyTorch Fully Sharded Data Parallel (FSDP). Logs para MLflow e checkpoints para um volume do Unity Catalog.
-
- Treinamento distribuído com Ray Train
- Ajuste fino distribuído de dados em paralelo com
TorchTrainerdo Ray Train em 8 GPUs H100 em um único nó, com um worker por GPU.