O que são arquivos de workspace?

Um arquivo workspace é um arquivo em sua árvore de arquivos Databricks workspace que não é um dos tipos listados a seguir:

  • Notebooks

  • Consultas

  • Painéis

  • genie espaços

  • Experiências

Além desses tipos excluídos, os arquivos workspace podem ser de qualquer tipo. Exemplos comuns incluem:

  • .py arquivos utilizados em módulos personalizados.

  • .md arquivos como README.md.

  • .csv ou outros pequenos arquivos de dados.

  • .txt arquivos.

  • .whl bibliotecas.

  • Arquivos de log.

Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e workspace files.

Sua árvore de arquivos Databricks workspace pode conter pastas anexadas a um repositório Git chamado "Databricks Git folders". Eles têm algumas limitações adicionais no suporte a tipos de arquivo. Para obter uma lista dos tipos de arquivos suportados nas pastas Git (anteriormente "Repos"), consulte gerenciar arquivo ativo nas pastas Databricks Git .

Importante

Os arquivos de espaço de trabalho são ativados em todos os lugares pelo site default na versão 11.2 do Databricks Runtime. Para cargas de trabalho de produção, use Databricks Runtime 11.3 LTS ou acima. Entre em contato com o administrador do site workspace se não conseguir acessar essa funcionalidade.

O que você pode fazer com arquivos do espaço de trabalho

O Databricks oferece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de workspace, incluindo um editor de arquivos interno. Nem todos os casos de uso de todos os tipos de arquivo são compatíveis.

Você pode criar, editar e gerenciar o acesso aos arquivos do workspace com padrões familiares das interações do notebook. Você pode usar caminhos relativos para importações de biblioteca de arquivos de workspace, semelhante ao desenvolvimento local. Para mais detalhes, consulte:

init script armazenado em arquivos workspace tem um comportamento especial. Você pode usar arquivos de workspace para armazenar e fazer referência init script em qualquer versão do Databricks Runtime. Consulte Armazenar init script em arquivos da área de trabalho.

Observação

No Databricks Runtime 14.0 e acima, o diretório de trabalho atual (CWD) default para o código executado localmente é o diretório que contém o Notebook ou script que está sendo executado. Esta é uma mudança de comportamento do Databricks Runtime 13.3 LTS e abaixo. Consulte Qual é o diretório de trabalho atual default ?.

Limitações

Uma lista completa das limitações dos arquivos do espaço de trabalho pode ser encontrada em workspace files limitations.

Limite de tamanho de arquivo

Os arquivos individuais workspace são limitados a 500 MB.

Versões do Databricks Runtime para arquivos em pastas Git em um cluster com o Databricks Container Services

Em clusters que executam o Databricks Runtime 11.3 LTS e acima, as configurações de default permitem que o senhor use arquivos workspace em pastas Git com o Databricks Container Services (DCS).

Em clusters que executam o Databricks Runtime versões 10.4 LTS e 9.1 LTS, o senhor deve configurar o dockerfile para acessar os arquivos workspace em pastas Git em um cluster com DCS. Consulte os seguintes dockerfiles para obter a versão desejada do Databricks Runtime:

Consulte Personalizar contêineres com o serviço Databricks Container

Habilitar arquivos de espaço de trabalho

Para habilitar o suporte para arquivos que não sejamNotebook em seu espaço de trabalho Databricks, chame o /api/2.0/workspace-conf API REST de um ambiente Notebook ou outro ambiente com acesso ao seu Databricks workspace. workspace são ativados por default.

Para ativar ou reativar o suporte a arquivos que não sejamNotebook em seu Databricks workspace, chame o /api/2.0/workspace-conf e obtenha o valor do enableWorkspaceFileSystem key. Se estiver definido como true, os arquivos nãoNotebook já estão habilitados para o seu workspace.

O exemplo a seguir demonstra como o senhor pode chamar esse API a partir de um Notebook para verificar se os arquivos workspace estão desativados e, em caso afirmativo, reativá-los.

Exemplo: Notebook para reativar o suporte a arquivos de espaço de trabalho do Databricks

Abra o bloco de anotações em outra guia