Pular para o conteúdo principal

Configurando meu ambiente

Este artigo descreve como escolher e configurar um ambiente Python para computação em GPU sem servidor, incluindo o comportamento de cache do ambiente, importações de módulos personalizados e limitações conhecidas.

Que ambiente usar

compute de GPU sem servidor oferece dois ambientes Python de gerenciamento:

nota

Ambientes base de espaço de trabalho não são suportados para computação GPU sem servidor. Em vez disso, use o ambiente default ou AI e especifique as dependências adicionais diretamente no painel lateral Ambientes ou pip install elas.

Ambiente básico padrão (Barebones)

Um ambiente mínimo e estável contendo apenas o pacote necessário para operações de computação em GPU sem servidor. O ambiente inclui torch, cuda e torchvision, otimizado para compatibilidade. Isso permite que a Databricks atualize o servidor de forma independente, oferecendo melhorias de desempenho, aprimoramentos de segurança e correções de bugs sem exigir nenhuma alteração de código nas cargas de trabalho.

Ideal para: Usuários que desejam controle total sobre suas dependências e preferem instalar apenas o que precisam.

Este é o ambiente default ao se conectar a um serviço de computação GPU sem servidor.

Para obter mais detalhes sobre as versões de pacotes instaladas em diferentes versões, consulte as notas sobre a versão:

Ambiente AI Databricks

Disponível em ambiente GPU serverless versão 4 e posteriores. O ambiente AI é construído sobre o ambiente base default , com pacotes de tempo de execução comuns e pacotes específicos para machine learning em GPUs. O pacote pré-instalado inclui:

  • PyTorch (com suporte a CUDA)
  • Transformers (Hugging Face)
  • LangChain
  • XGBoost
  • E dependências adicionais de ML/DL

Ideal para: Profissionais de ML que desejam um ambiente completo para treinamento de cargas de trabalho, ajustes finos e experimentação, sem gerenciamento manual de dependências.

Para selecionar: No painel lateral Ambiente , escolha AI v4 como seu ambiente base.

Para obter mais detalhes sobre as versões de pacotes instaladas em diferentes versões, consulte as notas sobre a versão:

ambientes de base de espaço de trabalho

Ambientes base de espaço de trabalho não são suportados para computação GPU sem servidor. Não é possível usar configurações de ambiente personalizadas no nível workspace .

Para configurar seu ambiente de aprendizado profundo para um projeto, use um dos dois ambientes base fornecidos (default ou Databricks AI) e instale pacotes adicionais programaticamente usando %pip install dentro do seu Notebook ou no início do seu script de treinamento:

Python
%pip install datasets accelerate peft bitsandbytes

Você pode instalar bibliotecas adicionais no ambiente de computação GPU sem servidor. Consulte Adicionar dependências ao Notebook.

Comportamento

Quando os ambientes são armazenados em cache?

Os ambientes são armazenados em cache entre as sessões para acelerar os tempos startup . Ao se reconectar ao poder computacional de GPU sem servidor com a mesma configuração de ambiente, os pacotes instalados anteriormente podem estar disponíveis no cache, reduzindo o tempo de configuração.

No entanto, o comportamento do cache não é garantido — certifique-se sempre de que seu Notebook inclua o comando %pip install necessário para reprodução.

Como faço para importar módulos personalizados?

Você pode importar módulos personalizados colocando-os em /Workspace/Shared e adicionando o caminho em sys.path:

Python
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

Você também pode upload arquivos de módulo como arquivos de espaço de trabalho e importá-los diretamente. Para colaboração multiusuário, armazene o código compartilhado em /Workspace/Shared em vez de pastas específicas do usuário. Para desenvolvimento ativo, utilize pastas específicas do usuário e envie as alterações para um repositório Git remoto para controle de versão.

Limitações

Os seguintes recursos não estão disponíveis em computação GPU sem servidor:

  • Funções Spark — Não é possível importar ou usar funções PySpark diretamente. O ambiente compute GPU sem servidor é exclusivo para Python ; Spark não está disponível como um ambiente de execução local. No entanto, o Spark Connect está disponível para carregamento de dados. Consulte Carregar dados em computeGPU sem servidor.
  • BibliotecaDatabricks Runtime ML — Os pacotes pré-instalados não substituem o Databricks Runtime ML. Algumas bibliotecas de aprendizado ML disponíveis no Databricks Runtime ML podem não estar pré-instaladas em computação GPU sem servidor.
  • Ambientes base de espaço de trabalho — Configurações personalizadas de ambiente em nível workspacenão são suportadas.
  • Pacote dependente de PrivateLinkpip install de especificars atrás de PrivateLink falhará.