Início rápido da CLI do AI Runtime
Beta
O AI Runtime CLI está em Beta.
Esta página aborda a submissão do seu primeiro Job de treinamento com a CLI do AI Runtime. Antes de começar, instale a CLI e configure a autenticação.
O passo 1: Escrever uma configuração YAML
Crie train.yaml descrevendo a carga de trabalho. A configuração mínima requer um nome de experimento, uma especificação de compute e um comando. O comando abaixo é executado sem qualquer código local, assim, é possível submeter sua primeira execução imediatamente:
experiment_name: my-first-air-run
compute:
num_accelerators: 1
accelerator_type: GPU_1xA10
command: echo "hello AIR!"
Execute seu próprio código
Para executar um script de treinamento local, adicione um bloco environment que liste suas dependências Python e um bloco code_source que faça upload do seu código local. Coloque seu script ao lado de train.yaml:
my-project/
├── train.yaml
└── train.py
experiment_name: my-first-air-run
environment:
version: '4'
dependencies:
- torch
- transformers
compute:
num_accelerators: 1
accelerator_type: GPU_1xA10
code_source:
type: snapshot
snapshot:
root_path: .
command: python $CODE_SOURCE_PATH/train.py
Esta configuração instala as dependências listadas, faz upload do diretório atual (root_path: .) e executa train.py em uma única GPU A10. $CODE_SOURCE_PATH corresponde ao local do código carregado no nó remoto. A Databricks recomenda usar isso em vez de codificar um caminho. environment.version seleciona a versão do ambiente serverless GPU e é opcional (o default é '4'). Para todas as versões disponíveis, consulte versões de ambiente serverless.
Para a referência de campo completa, consulte a referência YAML da carga de trabalho.
Etapa 2: Enviar a execução
Submeta a carga de trabalho:
air run --file train.yaml
A CLI faz upload do seu código local (se você configurou um code_source), envia o job e imprime um ID de execução. Use esse ID para inspecionar, acompanhar e cancelar a execução em comandos posteriores.
A submissão cria uma execução no experimento MLflow nomeado em experiment_name (um experimento pode conter muitas execuções). Essa execução captura as métricas, os parâmetros, os artefatos e os logs da carga de trabalho, todos visíveis na interface de usuário do MLflow no workspace. Os logs também estão disponíveis fora do MLflow: transmita-os para o seu terminal ou para um arquivo, ou baixe-os mais tarde com air logs (consulte a Etapa 3).
Para acompanhar os logs até a conclusão, adicione --watch:
air run --file train.yaml --watch
Etapa 3: inspecionar a execução
Verifique o status:
air get run <run-id>
A saída inclui links clicáveis para o experimento do MLflow da execução e a execução do MLflow na interface do usuário do workspace.
Transmissão ou downloads de logs:
air logs <run-id>
air logs <run-id> --node 2
air logs <run-id> --download-to ./logs/
Cargas de trabalho distribuídas são executadas em vários nós. Por padrão, air logs registra do nó 0. Para visualizar os registros de um nó específico, passe --node. Use --download-to para gravar log em um diretório local em vez de transmitir.
Listar execuções recentes:
air list runs --limit 10
air list runs --active
Cancelar execução:
air cancel <run-id>
Padrões comuns
Substituir campos YAML a partir da linha de comando:
air run --file train.yaml --override compute.num_accelerators=32 timeout_minutes=120
Validar a configuração sem enviar:
air run --file train.yaml --dry-run
Tornar um envio seguramente repetível:
air run --file train.yaml --idempotency-key my-unique-key
Se a mesma key já foi usada antes, a execução existente é retornada em vez de criar uma nova.