O que são arquivos de workspace?
Um arquivo workspace é um arquivo em sua árvore de arquivos Databricks workspace que não é um dos tipos listados a seguir:
Notebooks
Consultas
Painéis
genie espaços
Experiências
Além desses tipos excluídos, os arquivos workspace podem ser de qualquer tipo. Exemplos comuns incluem:
.py
arquivos utilizados em módulos personalizados..md
arquivos comoREADME.md
..csv
ou outros pequenos arquivos de dados..txt
arquivos..whl
bibliotecas.Arquivos de log.
Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e workspace files.
Sua árvore de arquivos Databricks workspace pode conter pastas anexadas a um repositório Git chamado "Databricks Git folders". Eles têm algumas limitações adicionais no suporte a tipos de arquivo. Para obter uma lista dos tipos de arquivos suportados nas pastas Git (anteriormente "Repos"), consulte gerenciar arquivo ativo nas pastas Databricks Git .
Importante
Os arquivos de espaço de trabalho são ativados em todos os lugares pelo site default na versão 11.2 do Databricks Runtime. Para cargas de trabalho de produção, use Databricks Runtime 11.3 LTS ou acima. Entre em contato com o administrador do site workspace se não conseguir acessar essa funcionalidade.
O que você pode fazer com arquivos do espaço de trabalho
O Databricks oferece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de workspace, incluindo um editor de arquivos interno. Nem todos os casos de uso de todos os tipos de arquivo são compatíveis.
Você pode criar, editar e gerenciar o acesso aos arquivos do workspace com padrões familiares das interações do notebook. Você pode usar caminhos relativos para importações de biblioteca de arquivos de workspace, semelhante ao desenvolvimento local. Para mais detalhes, consulte:
init script armazenado em arquivos workspace tem um comportamento especial. Você pode usar arquivos de workspace para armazenar e fazer referência init script em qualquer versão do Databricks Runtime. Consulte Armazenar init script em arquivos da área de trabalho.
Observação
No Databricks Runtime 14.0 e acima, o diretório de trabalho atual (CWD) default para o código executado localmente é o diretório que contém o Notebook ou script que está sendo executado. Esta é uma mudança de comportamento do Databricks Runtime 13.3 LTS e abaixo. Consulte Qual é o diretório de trabalho atual default ?.
Limitações
Uma lista completa das limitações dos arquivos do espaço de trabalho pode ser encontrada em workspace files limitations.
Versões do Databricks Runtime para arquivos em pastas Git em um cluster com o Databricks Container Services
Em clusters que executam o Databricks Runtime 11.3 LTS e acima, as configurações de default permitem que o senhor use arquivos workspace em pastas Git com o Databricks Container Services (DCS).
Em clusters que executam o Databricks Runtime versões 10.4 LTS e 9.1 LTS, o senhor deve configurar o dockerfile para acessar os arquivos workspace em pastas Git em um cluster com DCS. Consulte os seguintes dockerfiles para obter a versão desejada do Databricks Runtime:
Consulte Personalizar contêineres com o serviço Databricks Container
Habilitar arquivos de espaço de trabalho
Para habilitar o suporte para arquivos que não sejamNotebook em seu espaço de trabalho Databricks, chame o /api/2.0/workspace-conf API REST de um ambiente Notebook ou outro ambiente com acesso ao seu Databricks workspace. workspace são ativados por default.
Para ativar ou reativar o suporte a arquivos que não sejamNotebook em seu Databricks workspace, chame o /api/2.0/workspace-conf
e obtenha o valor do enableWorkspaceFileSystem
key. Se estiver definido como true
, os arquivos nãoNotebook já estão habilitados para o seu workspace.
O exemplo a seguir demonstra como o senhor pode chamar esse API a partir de um Notebook para verificar se os arquivos workspace estão desativados e, em caso afirmativo, reativá-los.