Guia do usuário para AI Runtime

info

Pré-visualização pública

Runtime AI para tarefas de nó único está em versão prévia pública. A API de treinamento distribuído para cargas de trabalho com múltiplas GPUs permanece em versão Beta.

Esta página inclui informações sobre migração, links para exemplo de Notebook e informações sobre solução de problemas.

Migrando cargas de trabalho clássicas de GPU para serverless

Se você estiver migrando uma carga de trabalho de aprendizado profundo existente de um cluster Databricks clássico (com Databricks Runtime ML) para um serverless (com AI Runtime), siga estes passos:

Substitua o código dependente do cluster. Remova quaisquer referências ao treinamento distribuído baseado em Spark (por exemplo, TorchDistributor) e substitua-as pelo decorador @distributed de serverless_gpu.
Atualização do carregamento de dados. Substitua os caminhos DBFS diretos pelos caminhos dos volumes Unity Catalog (/Volumes/...). Substitua as operações locais do Spark DataFrame pelo Spark Connect.
Reinstale as dependências. Não confie na biblioteca Databricks Runtime ML pré-instalada. Adicione o comando explícito %pip install para todos os pacotes necessários.
Atualizar caminhos de checkpoint. Mover pontos de verificação do DBFS ou armazenamento local para volumes Unity Catalog (/Volumes/<catalog>/<schema>/<volume>/...).
Atualizar a configuração do MLflow. Certifique-se de que os nomes dos experimentos usem caminhos absolutos e configure os nomes de execução para que possam ser reiniciados facilmente.
Faça o teste interativo primeiro. Valide sua carga de trabalho em um Notebook interativo antes de programá-la como um Job.

Monitore o uso e os custos.

Você pode monitorar seus gastos de GPU do AI Runtime consultando a tabela de uso faturável do sistema (system.billing.usage). A consulta a seguir retorna o uso total para cargas de trabalho de GPU serverless :

SQL
SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Para obter mais informações sobre o esquema da tabela de utilização faturável, consulte a Referência da tabela de utilização faturável do sistema.

O serviço AI Runtime cobra por hora de GPU no SKU de treinamento de modelos, aos seguintes preços:

H100 sob demanda: US$ 7,00/hora de GPU (Leste dos EUA)
A10 sob demanda: US$ 2,50/hora de GPU (Leste dos EUA)

Exemplo de caderno

As seguintes categorias de exemplos de Notebooks estão disponíveis para ajudar você a começar:

Categoria	Descrição
Grandes modelos de linguagem (LLMs)	Otimização de grandes modelos de linguagem, incluindo métodos com uso eficiente de parâmetros (LoRA, QLoRA)
Visão computadorizada	Detecção de objetos, classificação de imagens e outras tarefas de visão computacional.
aprendizagem profunda Sistemas de recomendação	Construindo sistemas de recomendação usando abordagens modernas de aprendizagem profunda, como modelos de duas torres.
ML clássico	Tarefas tradicionais ML incluindo treinamento do modelo XGBoost e previsão de séries temporais.
Treinamento Distribuído Multi-GPU	Escalando o treinamento em várias GPUs usando a APIde GPU sem servidor.

Para obter a lista completa, consulte o Notebook de exemploAI Runtime.

Solução de problemas

Genie Code pode ajudar a diagnosticar e sugerir soluções para erros de instalação da biblioteca. Consulte Usar o código Genie para depurar erros do ambiente compute.

ValueError: o tamanho do numpy.dtype foi alterado, o que pode indicar incompatibilidade binária. Esperava-se 96 do cabeçalho C, mas obteve-se 88 do PyObject.

O erro normalmente ocorre quando há uma incompatibilidade entre as versões do NumPy usadas durante a compilação de um pacote dependente e a versão do NumPy atualmente instalada no ambiente de execução. Essa incompatibilidade geralmente ocorre devido a mudanças na API C do NumPy e é particularmente perceptível da versão 1.x para a 2.x do NumPy. Este erro indica que o pacote Python instalado no Notebook pode ter alterado a versão NumPy .

Recomendado:

Verifique a versão NumPy em tempo de execução e certifique-se de que ela seja compatível com o seu pacote. Consulte as notas de computação de GPU sem servidor sobre a versão para ambiente 4 e ambiente 3 para obter informações sobre a biblioteca Python pré-instalada. Se você tiver uma dependência em uma versão diferente do NumPy, adicione essa dependência ao seu ambiente compute .

O PyTorch não consegue encontrar a libcudnn durante a instalação do torch.

Ao instalar uma versão diferente de torch, você pode ver o erro: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Isso ocorre porque o PyTorch só procura a biblioteca cuDNN no caminho local.

Recomendado:

Reinstale as dependências adicionando --force-reinstall ao instalar torch:

Python
%pip install torch --force-reinstall

Migrando cargas de trabalho clássicas de GPU para serverless​

Monitore o uso e os custos.​

Exemplo de caderno​

Solução de problemas​

ValueError: o tamanho do numpy.dtype foi alterado, o que pode indicar incompatibilidade binária. Esperava-se 96 do cabeçalho C, mas obteve-se 88 do PyObject.​

O PyTorch não consegue encontrar a libcudnn durante a instalação do torch.​