Instalar as dependências do Notebook

O senhor pode instalar as dependências do Python para o serverless Notebook usando o painel lateral Environment. Esse painel oferece um único local para editar, view e exportar os requisitos de biblioteca do Notebook. Essas dependências podem ser adicionadas usando um ambiente básico ou individualmente.

painel de ambiente sem servidor com políticas orçamentárias

Para tarefas que não sejamNotebook, consulte Configurar ambientes e dependências para tarefas que não sejamNotebook .

Importante

Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência do seu notebook serverless. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, Reset seu ambiente.

Configurar um ambiente básico

Um ambiente básico é um arquivo YAML armazenado como um arquivo workspace ou em um volume Unity Catalog que especifica dependências de ambiente adicionais. Os ambientes básicos podem ser compartilhados entre o Notebook. Para configurar um ambiente básico:

  1. Crie um arquivo YAML que defina as configurações de um ambiente virtual Python. O exemplo YAML a seguir, que se baseia na especificação do ambiente de projetos do MLflow, define um ambiente básico com algumas dependências de biblioteca:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - cowsay==6.1
      - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl"
      - git+https://github.com/databricks/databricks-cli
    
  2. Carregue o arquivo YAML como um arquivo workspace ou em um volume Unity Catalog. Consulte Importar um arquivo ou Fazer upload de arquivos para um volume do Unity Catalog.

  3. À direita do site Notebook, clique no botão ambiente para expandir o painel Environment. Esse botão só aparece quando um Notebook está conectado a serverless compute.

  4. No campo Base Environment (Ambiente básico ), digite o caminho do arquivo YAML de upload ou navegue até ele e selecione-o.

  5. Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.

Os usuários podem substituir as dependências especificadas no ambiente básico instalando as dependências individualmente.

Adicionar dependências individualmente

O senhor também pode instalar dependências em um Notebook conectado a serverless compute usando Dependencies tab do painel Environment:

  1. À direita do site Notebook, clique no botão ambiente para expandir o painel Environment (Ambiente ). Esse botão só aparece quando um Notebook está conectado a serverless compute.

  2. Na seção Dependencies (Dependências ), clique em Add Dependency (Adicionar dependência ) e insira o caminho da dependência da biblioteca no campo. O senhor pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt.

  3. Clique em Apply (Aplicar). Isso instala as dependências no ambiente virtual Notebook e reinicia o processo Python.

Observação

Um trabalho usando serverless compute instalará a especificação de ambiente do Notebook antes de executar o código do Notebook. Isso significa que não há necessidade de adicionar dependências ao programar o Notebook como Job. Consulte Configurar ambientes e dependências.

Exibir as dependências instaladas e os registros do pip

Para acessar view as dependências instaladas, clique em Installed (Instalado ) no painel lateral Environments (Ambientes ) para acessar Notebook. A instalação do Pip logs para o ambiente Notebook também está disponível clicando em Pip logs na parte inferior do painel.

Reset o meio ambiente

Se o seu Notebook estiver conectado ao serverless compute, o Databricks armazenará automaticamente em cache o conteúdo do ambiente virtual do Notebook. Isso significa que, em geral, o senhor não precisa reinstalar as dependências do Python especificadas no painel Environment ao abrir um Notebook existente, mesmo que ele tenha sido desconectado devido à inatividade.

Python O cache de ambiente virtual também se aplica ao Job. Isso significa que a execução subsequente do trabalho é mais rápida, pois as dependências necessárias já estão disponíveis.

Observação

Se o senhor alterar a implementação de um pacote Python personalizado que é usado em um Job em serverless, também deverá atualizar o número da versão para que o Job pegue a implementação mais recente.

Para limpar o cache do ambiente e executar uma nova instalação das dependências especificadas no painel Environment (Ambiente ) de um Notebook anexado a serverless compute, clique na seta ao lado de Apply (Aplicar ) e, em seguida, clique em Reset environment (Ambiente).

Observação

Reset o ambiente virtual se o senhor instalar um pacote que interrompa ou altere o núcleo do ambiente Notebook ou Apache Spark. Desanexar o Notebook do serverless compute e reanexá-lo não necessariamente limpa todo o cache do ambiente.

Configurar ambientes e dependências para nãoNotebook tarefa

Para outros tipos de tarefas compatíveis, como Python script, Python wheel ou dbt tarefa, um ambiente default inclui a instalação da Python biblioteca. Para ver a lista de bibliotecas instaladas, consulte a seção Installed Python biblioteca nas notas sobre a versão da versão Databricks Runtime na qual se baseia a implantação do seu serverless compute para fluxo de trabalho. Para ver a versão atual do Databricks Runtime usada pelo serverless compute para fluxo de trabalho, consulte serverless compute notas sobre a versão. Se uma tarefa Python exigir uma biblioteca que não esteja instalada, o senhor poderá instalar a biblioteca a workspace partirUnity Catalog de arquivos, volumes ou repositórios de pacotes públicos. Para adicionar uma biblioteca quando o senhor criar ou editar uma tarefa:

  1. No menu Environment and library (Ambiente e biblioteca ) dropdown, clique em ícone de edição ao lado do ambiente ou clique em + Add new environment (Adicionar novo ambiente). default ambiente ou clique em + Add new environment (Adicionar novo ambiente).

    Editar o ambiente default
  2. Na caixa de diálogo Configurar ambiente, clique em + Adicionar biblioteca.

  3. Selecione o tipo de dependência no menu dropdown em biblioteca.

  4. Na caixa de texto File Path (Caminho do arquivo ), digite o caminho para a biblioteca.

  • Para um Python wheel em um arquivo workspace, o caminho deve ser absoluto e começar com /Workspace/.

  • Para um Python wheel em um volume Unity Catalog, o caminho deve ser /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Para um arquivo requirements.txt, selecione PyPi e digite -r /path/to/requirements.txt.

    Adicionar tarefa biblioteca
  1. Clique em Confirm (Confirmar ) ou + Add library (Adicionar biblioteca ) para adicionar outra biblioteca.

  2. Se estiver adicionando uma tarefa, clique em Create task (Criar tarefa). Se estiver editando uma tarefa, clique em Save task (Salvar tarefa).