Início rápido da CLI do AI Runtime

info

Visualização

Este recurso está em Pré-visualização Pública.

Envie seu primeiro Job de treinamento com a CLI do AI Runtime em três os passos: escreva uma configuração de train.yaml, execute-o com air run e inspecione a execução. Antes de começar, instale a CLI e configure a autenticação.

O passo 1: Escrever uma configuração YAML

Crie train.yaml descrevendo a carga de trabalho. A configuração mínima requer um nome de experimento, uma especificação de compute e um comando. O comando abaixo é executado sem qualquer código local, assim, é possível submeter sua primeira execução imediatamente:

YAML
experiment_name: my-first-air-run
compute:
  num_accelerators: 1
  accelerator_type: GPU_1xA10
command: echo "hello AIR!"

Execute seu próprio código

Para executar um script de treinamento local, adicione um bloco environment que liste suas dependências Python e um bloco code_source que faça upload do seu código local. Coloque seu script ao lado de train.yaml:

Text
my-project/
├── train.yaml
└── train.py

YAML
experiment_name: my-first-air-run
environment:
  version: '4'
  dependencies:
    - torch
    - transformers
compute:
  num_accelerators: 1
  accelerator_type: GPU_1xA10
code_source:
  type: snapshot
  snapshot:
    root_path: .
command: python $CODE_SOURCE_PATH/train.py

Esta configuração instala as dependências listadas, faz upload do diretório atual (root_path: .) e executa train.py em uma única GPU A10. $CODE_SOURCE_PATH corresponde ao local do código carregado no nó remoto. A Databricks recomenda usar isso em vez de codificar um caminho. environment.version seleciona a versão do ambiente serverless GPU e é opcional (o default é '4'). Para todas as versões disponíveis, consulte versões de ambiente serverless.

Para a referência de campo completa, consulte a referência YAML da carga de trabalho.

Etapa 2: Enviar a execução

Submeta a carga de trabalho:

Bash
air run --file train.yaml

A CLI faz upload do seu código local (se você configurou um code_source), envia o job e imprime um ID de execução. Use esse ID para inspecionar, acompanhar e cancelar a execução em comandos posteriores.

A submissão cria uma execução no experimento MLflow nomeado em experiment_name (um experimento pode conter muitas execuções). Essa execução captura as métricas, os parâmetros, os artefatos e os logs da carga de trabalho, todos visíveis na interface de usuário do MLflow no workspace. Os logs também estão disponíveis fora do MLflow: transmita-os para o seu terminal ou para um arquivo, ou baixe-os mais tarde com air logs (consulte a Etapa 3).

Para acompanhar os logs até a conclusão, adicione --watch:

Bash
air run --file train.yaml --watch

Etapa 3: inspecionar a execução

Verifique o status:

Bash
air get run <run-id>

A saída inclui links clicáveis para o experimento do MLflow da execução e a execução do MLflow na interface do usuário do workspace.

Transmissão ou downloads de logs:

Bash
air logs <run-id>
air logs <run-id> --node 2
air logs <run-id> --download-to ./logs/

Cargas de trabalho distribuídas são executadas em vários nós. Por padrão, air logs registra do nó 0. Para visualizar os registros de um nó específico, passe --node. Use --download-to para gravar log em um diretório local em vez de transmitir.

Listar execuções recentes:

Bash
air list runs --limit 10
air list runs --active

Cancelar execução:

Bash
air cancel <run-id>

Padrões comuns

Substituir campos YAML a partir da linha de comando:

Bash
air run --file train.yaml --override compute.num_accelerators=32 timeout_minutes=120

Validar a configuração sem enviar:

Bash
air run --file train.yaml --dry-run

Tornar um envio seguramente repetível:

Bash
air run --file train.yaml --idempotency-key my-unique-key

Se a mesma key já foi usada antes, a execução existente é retornada em vez de criar uma nova.

O passo 1: Escrever uma configuração YAML​

Execute seu próprio código​

Etapa 2: Enviar a execução​

Etapa 3: inspecionar a execução​

Padrões comuns​

Recursos adicionais​

O passo 1: Escrever uma configuração YAML

Execute seu próprio código

Etapa 2: Enviar a execução

Etapa 3: inspecionar a execução

Padrões comuns

Recursos adicionais