Pular para o conteúdo principal

Configurar o ambiente serverless

Esta página explica como configurar o ambiente serverless para Notebooks e tarefas de Jobs. Para notebooks, use o painel lateral Ambiente para selecionar um ambiente base, instalar dependências, configurar a memória e aplicar políticas de uso. Para tarefas de Job, configure o ambiente ao criar ou editar uma tarefa.

Para expandir o painel lateral **Ambiente**, clique no ambiente botão à direita do notebook.

Painel de ambiente serverless

Selecione um ambiente base

Um ambiente base determina as bibliotecas pré-instaladas e a versão do ambiente disponível para o seu Notebook serverless. O seletor de Ambiente básico , no painel lateral Ambiente , é onde é possível selecionar o ambiente. Para ver detalhes sobre cada versão de ambiente, consulte versões de ambiente serverless. A Databricks recomenda usar a versão mais recente para usar os recursos mais atualizados do Notebook.

O seletor de ambiente Base inclui as seguintes opções:

  • Standard : O ambiente base serverless default com bibliotecas fornecidas pelo Databricks.

  • ML : Um ambiente base com os pacotes Python e de sistema do Databricks Runtime para Machine Learning pré-instalados. Utilize este ambiente para migrar cargas de trabalho clássicas do Databricks Runtime para Machine Learning para compute serverless. Veja ambiente base de ML.

  • AI : Um ambiente base otimizado para IA com bibliotecas de machine learning (ML) pré-instaladas. Esta opção aparece apenas quando um acelerador (GPU) é selecionado.

  • Mais : Expande para mostrar opções adicionais:

    • Versões anteriores de ambientes Standard, ML e AI.
    • Personalizado : Defina um ambiente personalizado usando um arquivo YAML.
  • Ambientes de espaço de trabalho : Lista todos os ambientes base compatíveis configurados para seu workspace por um administrador.

Para selecionar um ambiente base:

  1. Na interface do notebook, clique no painel lateral Ambiente ambiente.
  2. Em Ambiente base , selecione um ambiente no menu suspenso.
  3. Clique em Aplicar .

Adicionar dependências ao Notebook

Como o serverless não oferece suporte a políticas de compute ou init scripts, é necessário instalar dependências personalizadas usando o painel lateral Ambiente . É possível instalar dependências individualmente ou usar um ambiente base compartilhável para instalar múltiplas dependências.

O Databricks armazena em cache o ambiente virtual do seu Notebook, assim as dependências não são reinstaladas toda vez que você reabre um Notebook ou retoma após inatividade. Tarefas de Job que compartilham o mesmo conjunto de dependências também se beneficiam deste cache dentro de uma execução.

Instalar uma dependência individualmente:

  1. Na interface do notebook, clique no painel lateral Ambiente ambiente.

  2. Na seção Dependências , clique em Adicionar dependência e insira o caminho da dependência no campo. Você pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt. Python wheel ou projetos Python (por exemplo, o diretório que contém um pyproject.toml ou um setup.py) podem estar localizados em arquivos workspace ou volumes Unity Catalog.

    • Se estiver usando um arquivo workspace, o caminho deve ser absoluto e começar com /Workspace/.
    • Se estiver usando um arquivo em um volume do Unity Catalog, o caminho deve estar no seguinte formato: /Volumes/<catalog>/<schema>/<volume>/<path>.whl.
  3. Clique em Aplicar para instalar as dependências e reiniciar o processo do Python.

importante

Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência do seu notebook serverless. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, remova a biblioteca e reinicie seu ambiente.

Para visualizar as dependências instaladas, clique na tab **Instalado** no painel lateral **Ambientes**. Acesse os logs de instalação do pip para o ambiente do Notebook clicando em Logs do pip na parte inferior do painel.

nota

Administradores do workspace podem configurar repositórios de pacotes privados ou autenticados como a fonte default de pip para notebooks e jobs serverless. Isso permite que os usuários instalem pacotes de repositórios internos sem especificar index-url ou extra-index-url. Consulte Configure repositórios de pacotes Python default.

Crie uma especificação de ambiente personalizada

Você pode criar e reutilizar especificações de ambiente personalizadas.

  1. Em um Notebook serverless, selecione um ambiente base e instale as dependências desejadas.
  2. Clique no menu kebab Ícone do menu Kebab. na parte inferior do painel Ambiente e clique em **Exportar ambiente**.
  3. Salve a especificação como um arquivo de espaço de trabalho ou em um volume Unity Catalog.

Para usar sua especificação de ambiente personalizada em um notebook, selecione **Personalizado** no menu suspenso **Ambiente básico**, em seguida, use a Ícone de pasta. pasta para selecionar seu arquivo YAML.

Criar ferramentas comuns para compartilhar em seu workspace

Este exemplo armazena uma utilidade em um arquivo de workspace e a instala como uma dependência de notebook serverless:

  1. Crie uma pasta com a seguinte estrutura. Certifique-se de que outros usuários tenham acesso de leitura a este caminho:

    Shell
    helper_utils/
    ├── helpers/
    │ └── __init__.py # your common functions live here
    ├── pyproject.toml
  2. Preencha pyproject.toml assim:

    Python
    [project]
    name = "common_utils"
    version = "0.1.0"
  3. Adicione uma função ao arquivo init.py. Por exemplo:

    Python
    def greet(name: str) -> str:
    return f"Hello, {name}!"
  4. Na interface do notebook, clique no painel lateral Ambiente Ícone do ambiente..

  5. Na seção Dependências , clique em Adicionar dependência e insira o caminho do seu arquivo util. Por exemplo: /Workspace/helper_utils.

  6. Clique em Aplicar .

Agora o senhor pode usar a função em seu Notebook:

Python
from helpers import greet
print(greet('world'))

Isso resulta como:

Text
Hello, world!

Utilizar AI Runtime (GPU serverless )

info

Pré-visualização pública

O AI Runtime está em versão prévia pública.

Siga estes passos para configurar AI Runtime, com compute GPU serverless , no seu Notebook Databricks :

  1. Em um notebook, clique no menu suspenso compute " na parte superior e selecione "GPU sem servidor" .
  2. Clique no Ícone do ambiente. para abrir o painel lateral Ambientes.
  3. Selecione A10 ou H100 no campo Acelerador .
  4. Em Ambiente base , selecione Padrão para o ambiente default ou AI para o ambiente otimizado para AI com bibliotecas de machine learning (ML) pré-instaladas.
  5. Clique em Aplicar e, em seguida, confirme que deseja aplicar AI Runtime ao seu ambiente de notebook.

Para obter mais detalhes, consulte AI Runtime.

Use memória alta serverless compute

info

Visualização

Esse recurso está em Public Preview.

Caso encontre erros de falta de memória em seu Notebook, configure seu Notebook para usar um tamanho de memória maior. Essa configuração de tamanho de memória aumenta o tamanho da memória REPL usada ao executar código no notebook. Isso não afeta o tamanho da memória da sessão do Spark. O uso serverless com alta memória tem uma taxa de emissão de DBU maior do que a memória padrão.

As opções de memória disponíveis são:

  • Padrão : 16 GB de memória total.
  • Alta : 32 GB de memória total.

Para configurar as definições de memória do Notebook:

  1. Na interface do notebook, clique no painel lateral Ambiente ambiente.
  2. Em Memória , selecione Memória alta .
  3. Clique em Aplicar .

Essa configuração de memória também se aplica às tarefas de Job de notebook que são executadas usando as preferências de memória do notebook. A atualização da preferência de memória no Notebook afeta a próxima execução do Job.

Selecione uma política de uso serverless

info

Visualização

Esse recurso está em Public Preview.

As políticas de uso de serviços sem servidor permitem que sua organização aplique tags personalizadas ao uso de serviços serverless para uma atribuição de faturamento granular.

Se seu workspace usa políticas de uso serverless, selecione a política que deseja aplicar ao notebook. Se um usuário for atribuído a apenas uma política de uso serverless, essa política se aplica por default.

Após conectar-se ao serviço de computação sem servidor, selecione uma política no painel lateral Ambiente :

  1. Na interface do notebook, clique no painel lateral Ambiente ambiente.
  2. Em "Política de uso sem servidor" serverless selecione a política que deseja aplicar ao seu Notebook.
  3. Clique em Aplicar .

Após aplicar, todo o uso de notebook adota as tags personalizadas da política.

nota

Se o seu Notebook for originário de um repositório Git ou não tiver uma política de usoserverless atribuída, ele usará por padrão a última política de uso serverless escolhida quando for conectado à compute serverless .

Incluir o ambiente nas exportações de arquivos de origem

Para Python Notebook, você pode ativar ou desativar a opção "Incluir nas exportações de arquivos de origem" na configuração do ambiente. Quando ativada, a configuração do ambiente base e suas dependências é armazenada no formato PEP 723 nos arquivos de origem exportados. Isso ajuda a manter a configuração do ambiente quando os Notebooks são armazenados em pastasGit ou baixados como arquivos de origem.

Por exemplo, um notebook que usa o **Standard v5** exporta a configuração do ambiente como metadados embutidos na parte superior do arquivo:

Python
# Databricks notebook source
# /// script
# [tool.databricks.environment]
# environment_version = "5"
# ///
print("Hello World!")

Reset as dependências do ambiente

Se o notebook estiver conectado ao serverless compute, o Databricks armazenará automaticamente em cache o conteúdo do ambiente virtual do notebook. Isso significa que você geralmente não precisa reinstalar as dependências do Python especificadas no painel lateral Ambiente ao abrir um Notebook existente, mesmo que ele tenha sido desconectado devido a inatividade.

O armazenamento em cache do ambiente virtual do Python também se aplica a jobs. Quando um Job é executado, qualquer tarefa com o mesmo conjunto de dependências que uma tarefa concluída na mesma execução, é concluída mais rapidamente, pois o cache já contém as dependências necessárias.

nota

Se o senhor alterar a implementação de um pacote Python personalizado usado em um trabalho no site serverless, também deverá atualizar o número da versão para que o trabalho possa pegar a implementação mais recente.

Para limpar o cache do ambiente e realizar uma nova instalação das dependências especificadas no painel lateral Ambiente de um notebook conectado ao serverless compute, clique na seta ao lado de Aplicar e, em seguida, clique em Redefinir para os defaults .

Se o senhor instalar um pacote que interrompa ou altere o ambiente principal do Notebook ou do site Apache Spark, remova o pacote problemático e, em seguida, redefina o ambiente. Iniciar uma nova sessão não limpa todo o cache do ambiente.

Configurar o ambiente para a tarefa de trabalho

Cada tarefa de Job é executada em um ambiente isolado que inclui um ambiente base e quaisquer bibliotecas adicionais que especificar. O ambiente base define a versão de runtime do Python e Scala e as bibliotecas pré-instaladas. Tarefas herdam o conjunto default de bibliotecas instaladas da versão do ambiente. Para ver o que está incluído, consulte a seção **Bibliotecas Python instaladas** ou **Bibliotecas Java e Scala instaladas** da versão do ambiente que você está usando.

Você pode complementar as bibliotecas pré-instaladas com bibliotecas de arquivos do workspace, Unity Catalog volumes ou repositórios de pacotes públicos. Somente as dependências necessárias para a tarefa são instaladas em tempo de execução.

info

Visualização

O uso de compute serverless para tarefas JAR está em Pré-visualização Pública.

info

Beta

A seleção de um ambiente de base gerenciado está em beta. O menu suspenso **Ambiente base** na caixa de diálogo **Configurar ambiente** permite selecionar entre ambientes fornecidos pelo Databricks (como Standard e ML) ou ambientes configurados no workspace. Sem este recurso, a caixa de diálogo exibe um menu suspenso **Versão do Ambiente** em vez disso. Os administradores do workspace podem ativar esse recurso na página Pré-visualizações .

Diálogo de configuração do ambiente mostrando o menu suspenso de ambiente base expandido com as seções de ambientes Databricks e ambientes de workspace

Configurar o ambiente por tipo de tarefa

A forma como os ambientes são configurados em um Job depende do tipo de tarefa:

As tarefas de notebook usam como default o **Ambiente de Notebook**, que utiliza o ambiente base configurado e as dependências do próprio notebook. É possível substituir isto com um ambiente em nível de job.

Menu suspenso de Ambiente e Bibliotecas para uma tarefa de Notebook, exibindo as opções de Ambiente do Notebook e Ambiente de Jobs

Para configurar um ambiente em nível de job:

  1. Na configuração da tarefa, clique no menu suspenso **Ambiente e Bibliotecas**.

  2. Em **Ambiente de jobs**, clique no ícone de lápis ao lado de **default**, ou clique em **+ Adicionar novo ambiente de jobs**.

  3. Na caixa de diálogo **Configurar ambiente**, selecione no menu suspenso **Ambiente básico**:

    • Ambientes Databricks: opções fornecidas pela Databricks, como **Standard** e **ML**.
    • Ambientes do Workspace: Ambientes personalizados configurados pelo administrador do workspace. Consulte Gerenciar ambientes base do workspace.
    • Mais : versões anteriores e Personalizado (especifique um arquivo YAML).
  4. Em **Dependências**, adicione quaisquer bibliotecas adicionais. Você pode especificar uma biblioteca em qualquer formato válido em um arquivo requirements.txt, ou usar um caminho absoluto para um arquivo de workspace ou volume do Unity Catalog.

  5. Clique em Confirmar .

nota

Se o seu workspace não tiver o ambiente base do workspace para a prévia de jobs ativado, a caixa de diálogo Configurar ambiente mostra uma lista suspensa Versão do ambiente em vez de Ambiente base .

Para configurar o ambiente, selecione uma versão e clique em + Adicionar biblioteca . É possível especificar um caminho de arquivo de workspace (começando com /Workspace/), um caminho de volume do Unity Catalog (começando com /Volumes/) ou uma referência de arquivo de requisitos (por exemplo, -r /Workspace/path/to/requirements.txt).

Compatibilidade de ambiente e compute

O ambiente base que for selecionado deve ser compatível com o tipo de compute da tarefa. Por exemplo, um ambiente criado para compute de GPU não é compatível com compute de CPU. Na UI de jobs, ambientes incompatíveis não estão disponíveis no menu suspenso de ambiente base.

Ao configurar uma tarefa de Notebook, o tipo compute (CPU ou GPU) e o ambiente base podem vir das configurações do Job ou das configurações do Notebook.

  • Se for definido um acelerador de hardware (GPU) no nível do job, também deverá ser selecionado um ambiente base no nível do job. Não é possível usar o ambiente do notebook com um acelerador de nível de job.
  • Se você tiver tarefas de Job que fazem referência a um Notebook e atualizar o tipo de compute do Notebook referenciado (por exemplo, de CPU para GPU), as tarefas existentes poderão se tornar incompatíveis com o ambiente configurado. Revise as configurações de ambiente do Job após alterar a configuração do compute do Notebook.
  • Para usuários da API: caso o ambiente base seja definido no nível do job, mas o notebook defina o tipo de compute, o Databricks valida a compatibilidade em tempo de execução, e não no momento da criação do job. Se a configuração for incompatível, a execução falha com um erro.