Pular para o conteúdo principal

Exemplos da CLI do AI Runtime

info

Beta

Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.

Os exemplos a seguir são cargas de trabalho completas e de ponta a ponta, enviadas a partir da CLI air com air run -f train.yaml. Cada um mostra um padrão real de treinamento distribuído em GPUs H100, incluindo o YAML de workload, script de inicialização e código de treinamento. Inicie com o início rápido se você ainda não enviou uma execução.

    • Ajuste fino de LLM multi-nó com FSDP
    • Ajuste fino supervisionado de Llama-3.1-8B em 16 GPUs H100 (2 nós) utilizando torchrun e PyTorch Fully Sharded Data Parallel (FSDP). Logs para MLflow e checkpoints para um volume do Unity Catalog.