Pular para o conteúdo principal

Configurar o ambiente serverless

Este artigo explica como usar o painel serverless lateral Environment de um notebook para configurar dependências, serverless políticas de orçamento, memória e versão do ambiente. Esse painel oferece um único local para gerenciar as configurações do Notebook serverless. As configurações definidas nesse painel só se aplicam quando o Notebook está conectado ao site serverless compute.

Para expandir o painel lateral Environment , clique no botão ambiente à direita do Notebook.

Painel de ambiente sem servidor com serverless políticas orçamentárias

Para obter informações sobre a configuração de definições de ambiente em tarefas que não sejam de notebook, consulte Configurar ambiente para tarefas que não sejam de notebook.

Use memória alta serverless compute

info

Visualização

Esse recurso está em Public Preview.

Se o senhor se deparar com erros de falta de memória no Notebook, poderá configurar o Notebook para usar um tamanho de memória maior. Essa configuração aumenta o tamanho da memória do REPL usada ao executar o código no Notebook. Isso não afeta o tamanho da memória da sessão do Spark. O uso sem servidor com memória alta tem uma taxa de emissão de DBU mais alta do que a memória padrão.

  1. Na interface do usuário do Notebook, clique no painel lateral Environment (Ambiente) Painel lateral ambiental.
  2. Em Memória , selecione Memória alta .
  3. Clique em Aplicar .

Essa configuração também se aplica à tarefa do Notebook Job, que é executada usando as preferências de memória do Notebook. A atualização da preferência de memória no Notebook afeta a execução do próximo trabalho.

Selecione uma política orçamentária serverless

info

Visualização

Esse recurso está em Public Preview.

As políticas de orçamento sem servidor permitem que sua organização aplique tags personalizadas no uso do serverless para atribuição de faturamento granular.

Se o seu workspace usa políticas de orçamento serverless para atribuir o uso do serverless, o senhor pode selecionar a política de orçamento serverless que deseja aplicar ao Notebook. Se um usuário for atribuído a apenas uma política de orçamento serverless, essa política será selecionada por default.

O senhor pode selecionar a política de orçamento serverless depois que o Notebook estiver conectado ao serverless compute usando o painel lateral Environment :

  1. Na interface do usuário do Notebook, clique no painel lateral Environment (Ambiente) Painel lateral ambiental.
  2. Em Budget policy (Política de orçamento ), selecione a política de orçamento serverless que deseja aplicar ao Notebook.
  3. Clique em Aplicar .

Painel do ambiente Notebook sem servidor com políticas de orçamento serverless

Quando essa configuração estiver concluída, todo o uso do Notebook herdará as tags personalizadas da política de orçamento do serverless.

nota

Se o Notebook for originário de um repositório Git ou não tiver uma política de orçamentoserverless atribuída, ele terá como padrão a última política de orçamento serverless escolhida quando for anexado a serverless compute.

Selecione uma versão do ambiente

As versões do ambiente permitem que as cargas de trabalho do serverless recebam atualizações independentes do mecanismo sem afetar a compatibilidade do aplicativo. Para ver detalhes sobre cada versão de ambiente, consulte versões de ambiente sem servidor. Databricks recomenda escolher a versão mais recente para obter o recurso mais atualizado do Notebook.

Para selecionar uma versão do ambiente:

  1. Na interface do usuário do Notebook, clique no painel lateral Environment (Ambiente) Painel lateral ambiental.
  2. Em Versão do ambiente , selecione uma versão.
  3. Clique em Aplicar .

Adicionar dependências ao Notebook

Como o site serverless não é compatível com as políticas ou o script de inicialização do compute, o senhor deve adicionar suas dependências de biblioteca personalizadas usando o painel lateral Environment . O senhor pode adicionar o biblioteca individualmente ou usar um ambiente de base compartilhável para instalar vários biblioteca.

Para adicionar individualmente uma dependência de biblioteca:

  1. Na interface do usuário do Notebook, clique no painel lateral Environment (Ambiente) Painel lateral ambiental.
  2. Na seção Dependências , clique em Adicionar dependência e insira o caminho da dependência da biblioteca no campo. Você pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt.
  3. Clique em Aplicar . Isso instala as dependências no ambiente virtual do notebook e reinicia o processo do Python.

Um trabalho que usa o site serverless compute instala a especificação de ambiente do Notebook antes de executar o código do Notebook. Isso significa que o senhor não precisa adicionar dependências ao programar o Notebook como Job.

important

Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência do seu notebook serverless. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, remova a biblioteca e reinicie seu ambiente.

Para view as dependências instaladas, clique em Installed tab no painel lateral Environments (Ambientes ). A instalação do pip logs para o ambiente do Notebook também está disponível clicando em pip logs na parte inferior do painel.

Configurar um ambiente básico

Um ambiente básico é um arquivo YAML armazenado como um arquivo de workspace ou em um volume do Unity Catalog que especifica dependências de ambiente adicionais. Ambientes básicos podem ser compartilhados entre notebooks. Para configurar um ambiente básico:

  1. Crie um arquivo YAML que define as configurações de um ambiente virtual do Python. O exemplo dp YAML a seguir, que se baseia na especificação do ambiente de projetos do MLflow, define um ambiente básico com algumas dependências de biblioteca:

    YAML
    client: '1'
    dependencies:
    - --index-url https://pypi.org/simple
    - -r "/Workspace/Shared/requirements.txt"
    - my-library==6.1
    - '/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl'
    - git+https://github.com/databricks/databricks-cli
  2. Carregue o arquivo YAML como um arquivo workspace ou em um volume Unity Catalog. Consulte Importar um arquivo ou Fazer upload de arquivos para um volume do Unity Catalog.

  3. À direita do Notebook, clique no botão ambiente para expandir o painel lateral Environment (Ambiente) . Esse botão só aparece quando um Notebook está conectado ao site serverless compute.

  4. No campo Ambiente básico , digite o caminho do arquivo YAML carregado ou navegue até ele e selecione-o.

  5. Clique em Aplicar . Isso instala as dependências no ambiente virtual do notebook e reinicia o processo do Python.

Os usuários podem substituir as dependências especificadas no ambiente básico instalando dependências individualmente.

Reset as dependências do ambiente

Se o Notebook estiver conectado ao site serverless compute, o site Databricks armazena automaticamente em cache o conteúdo do ambiente virtual do Notebook. Isso significa que, em geral, o senhor não precisa reinstalar as dependências do Python especificadas no painel lateral Environment ao abrir um Notebook existente, mesmo que ele tenha sido desconectado devido à inatividade.

Python O cache de ambiente virtual também se aplica ao Job. Quando um trabalho é executado, qualquer tarefa do trabalho que compartilhe o mesmo conjunto de dependências que uma tarefa concluída nessa execução é mais rápida, pois as dependências necessárias já estão disponíveis.

nota

Se o senhor alterar a implementação de um pacote Python personalizado usado em um trabalho no site serverless, também deverá atualizar o número da versão para que o trabalho possa pegar a implementação mais recente.

Para limpar o cache do ambiente e realizar uma nova instalação das dependências especificadas no painel lateral Environment (Ambiente ) de um Notebook anexado a serverless compute, clique na seta ao lado de Apply (Aplicar ) e, em seguida, clique em Reset environment (Ambiente) .

Se o senhor instalar um pacote que interrompa ou altere o ambiente principal do Notebook ou do site Apache Spark, remova o pacote que está causando problemas e, em seguida, redefina o ambiente. O fato de desconectar e reconectar o Notebook não limpa todo o cache do ambiente.

Configurar o ambiente para tarefas de trabalho que não sejam de notebook

Para os tipos de tarefa Job, como Python script, Python wheel ou dbt tarefa, as dependências da biblioteca são herdadas da versão do ambiente serverless. Para view a lista de bibliotecas instaladas, consulte a seção Installed Python biblioteca da versão do ambiente que está usando. Se uma tarefa exigir uma Python biblioteca que não esteja instalada, o senhor poderá instalar a biblioteca a partir de workspacearquivos, Unity Catalog volumes ou repositórios públicos de pacotes.

Para adicionar uma biblioteca quando o senhor criar ou editar uma tarefa de trabalho:

  1. No menu Environment and library (Ambiente e biblioteca) dropdown, clique em ícone de edição ao lado do ambiente padrão ou clique em + Add new environment (Adicionar novo ambiente ).

    Editar o ambiente default

  2. Selecione a versão do ambiente no menu suspenso Versão do ambiente . Consulte as versões do ambiente sem servidor. Databricks recomenda escolher a versão mais recente para obter o recurso mais atualizado.

  3. Na caixa de diálogo Configurar ambiente , clique em + Adicionar biblioteca .

  4. Selecione o tipo de dependência no menu dropdown em biblioteca .

  5. Na caixa de texto File Path (Caminho do arquivo ), digite o caminho para a biblioteca.

  • Para um Python wheel em um arquivo workspace, o caminho deve ser absoluto e começar com /Workspace/.

  • Para um Python wheel em um volume Unity Catalog, o caminho deve ser /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Para um arquivo requirements.txt, selecione PyPI e insira -r /path/to/requirements.txt.

    Adicionar tarefa biblioteca

  1. Clique em Confirm (Confirmar ) ou + Add library (Adicionar biblioteca ) para adicionar outra biblioteca.
  2. Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa ). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa ).

Configure os repositórios default Python pacote

Os administradores do workspace podem configurar repositórios pacote privados ou autenticados dentro do workspace como a configuração default pip para serverless Notebook e serverless Job. Isso permite que os usuários instalem o pacote a partir de repositórios internos do Python sem definir explicitamente index-url ou extra-index-url. No entanto, se esses valores forem especificados no código ou em um Notebook, eles terão precedência sobre o padrão workspace.

Essa configuração aproveita os segredos do Databricks para armazenar e gerenciar com segurança os URLs e as credenciais do repositório. Os administradores podem fazer a configuração usando a página de configurações de workspace administração ou usando um escopo secreto predefinido e o comando Databricks CLI secrets ou REST API o comando.

Configure as dependências do default para um workspace

Os administradores do espaço de trabalho podem adicionar ou remover os repositórios do pacote default Python usando a página de configurações de administração workspace.

  1. Como administrador do workspace, log in para o Databricks workspace.
  2. Clique no seu nome de usuário na barra superior do workspace do Databricks e selecione Configurações .
  3. Clique em computar tab.
  4. Ao lado de Pacote Repositories padrão , clique em gerenciar .
  5. (Opcional) Adicione ou remova um URL de índice, URLs de índice extras ou um certificado SSL personalizado.
  6. Clique em Salvar para salvar as alterações.
nota

As modificações ou exclusões de segredos são aplicadas depois que o senhor anexa novamente o site serverless compute ao Notebook ou executa novamente o trabalho serverless.

Configuração usando a CLI de segredos ou a API REST

Para configurar os repositórios de pacotes default Python usando o CLI ou REST API, crie um escopo secreto predefinido e configure as permissões de acesso e, em seguida, adicione os segredos do repositório de pacotes.

Nome do escopo secreto predefinido

Os administradores do espaço de trabalho podem definir URLs de índice de pip default ou URLs de índice extras juntamente com a autenticação tokens e segredos em um escopo secreto designado sob uma chave predefinida:

  • Nome do escopo secreto: databricks-package-management
  • chave secreta para index-url: pip-index-url
  • chave secreta para urnas extra-indexadas: pip-extra-index-urls
  • chave secreta para o conteúdo da certificação SSL: pip-cert

Criar o escopo secreto

Um escopo secreto pode ser criado usando o Databricks CLI comando secrets ou REST API o comando. Depois de criar o Secret Scope, configure as listas de controle de acesso para conceder acesso de leitura a todos os usuários do workspace. Isso garante que o repositório permaneça seguro e não possa ser alterado por usuários individuais. O escopo secreto deve usar o nome predefinido de escopo secreto databricks-package-management.

Bash
databricks secrets create-scope databricks-package-management
databricks secrets put-acl databricks-package-management admins MANAGE
databricks secrets put-acl databricks-package-management users READ

Adicionar segredos do repositório Python pacote

Adicione os detalhes do repositório do pacote Python usando os nomes de chave secreta predefinidos, sendo que todos os três campos são opcionais.

Bash
# Add index URL.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-index-url", "string_value":"<index-url-value>"}'

# Add extra index URLs. If you have multiple extra index URLs, separate them using white space.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-extra-index-urls", "string_value":"<extra-index-url-1 extra-index-url-2>"}'

# Add cert content. If you want to pip configure a custom SSL certificate, put the cert file content here.
databricks secrets put-secret --json '{"scope": "databricks-package-management", "key": "pip-cert", "string_value":"<cert-content>"}'

Modificar ou excluir segredos privados do repositório PyPI

Para modificar os segredos do repositório PyPI, use o comando put-secret. Para excluir os segredos do repositório PyPI, use delete-secret conforme mostrado abaixo:

Bash
# delete secret
databricks secrets delete-secret databricks-package-management pip-index-url

databricks secrets delete-secret databricks-package-management pip-extra-index-urls

databricks secrets delete-secret databricks-package-management pip-cert

# delete scope
databricks secrets delete-scope databricks-package-management
Esse artigo foi útil?