O que são arquivos de workspace?

Um arquivo de workspace é qualquer arquivo no Databricks workspace que não seja um bloco de anotações do Databricks. Os arquivos do workspace podem ser de qualquer tipo de arquivo. Exemplos comuns:

  • .py arquivos utilizados em módulos personalizados.

  • .md arquivos como README.md.

  • .csv ou outros pequenos arquivos de dados.

  • .txt arquivos.

  • .whl bibliotecas.

  • Arquivos de log.

os arquivos workspace incluem arquivos anteriormente chamados de “Arquivos no repo”.

Importante

Os arquivos do workspace são habilitados em todos os lugares por default no Databricks Runtime versão 11.2, mas podem ser desabilitados pelos administradores usando a API REST. Para cargas de trabalho de produção, utilize o Databricks Runtime 11.3 LTS ou acima. Entre em contato com o administrador do seu workspace se você não conseguir acessar esta funcionalidade.

O que você pode fazer com arquivos do espaço de trabalho

O Databricks oferece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de workspace, incluindo um editor de arquivos interno. Nem todos os casos de uso de todos os tipos de arquivo são compatíveis. Por exemplo, embora você possa incluir imagens em um diretório ou repositório importado, não pode incorporar imagens em blocos de anotações.

Você pode criar, editar e gerenciar o acesso aos arquivos do workspace com padrões familiares das interações do notebook. Você pode usar caminhos relativos para importações de biblioteca de arquivos de workspace, semelhante ao desenvolvimento local. Para mais detalhes, consulte:

init script armazenado em arquivos workspace tem um comportamento especial. Você pode usar arquivos de workspace para armazenar e fazer referência init script em qualquer versão do Databricks Runtime. Consulte Armazenar init script em arquivos da área de trabalho.

Observação

No Databricks Runtime 14.0 e acima, o diretório de trabalho atual (CWD) default para o código executado localmente é o diretório que contém o Notebook ou script que está sendo executado. Esta é uma mudança de comportamento do Databricks Runtime 13.3 LTS e abaixo. Consulte Qual é o diretório de trabalho atual default ?.

Limitações

Uma lista completa das limitações dos arquivos do espaço de trabalho pode ser encontrada em workspace files limitations.

Limite de tamanho de arquivo

Os arquivos individuais workspace são limitados a 500 MB.

Versões do Databricks Runtime para arquivos em pastas Git em um cluster com o Databricks Container Services

Em clusters que executam o Databricks Runtime 11.3 LTS e acima, as configurações de default permitem que o senhor use arquivos workspace em pastas Git com o Databricks Container Services (DCS).

Em clusters que executam o Databricks Runtime versões 10.4 LTS e 9.1 LTS, o senhor deve configurar o dockerfile para acessar os arquivos workspace em pastas Git em um cluster com DCS. Consulte os seguintes dockerfiles para obter a versão desejada do Databricks Runtime:

Consulte Personalizar contêineres com o serviço Databricks Container

Habilitar arquivos de espaço de trabalho

Para habilitar o suporte para arquivos que não sejamNotebook em seu espaço de trabalho Databricks, chame o /api/2.0/workspace-conf API REST de um ambiente Notebook ou outro ambiente com acesso ao seu Databricks workspace. workspace são ativados por default.

Para ativar ou reativar o suporte a arquivos que não sejamNotebook em seu Databricks workspace, chame o /api/2.0/workspace-conf e obtenha o valor do enableWorkspaceFileSystem key. Se estiver definido como true, os arquivos nãoNotebook já estão habilitados para o seu workspace.

O exemplo a seguir demonstra como o senhor pode chamar essa API em Notebook para verificar se os arquivos workspace estão desativados e, em caso afirmativo, reativá-los. Para desativar os arquivos workspace, defina enableWorkspaceFilesystem como false com a API /api/2.0/workspace-conf API.

Exemplo: Notebook para reativar o suporte a arquivos de espaço de trabalho do Databricks

Abra o bloco de anotações em outra guia