O que são arquivos de workspace?
Um arquivo workspace é um arquivo em sua árvore de arquivos Databricks workspace que não é um dos tipos listados a seguir:
Notebooks
Consultas
Painéis
genie espaços
Experiências
Além desses tipos excluídos, os arquivos workspace podem ser de qualquer tipo. Exemplos comuns incluem:
.py
arquivos utilizados em módulos personalizados..md
arquivos comoREADME.md
..csv
ou outros pequenos arquivos de dados..txt
arquivos..whl
bibliotecas.Arquivos de log.
Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e workspace files.
Sua árvore de arquivos Databricks workspace pode conter pastas anexadas a um repositório Git chamado "Databricks Git folders". Eles têm algumas limitações adicionais no suporte a tipos de arquivo. Para obter uma lista dos tipos de arquivos compatíveis com as pastas Git (anteriormente "Repos"), consulte os tipos de arquivos ativos compatíveis com as pastas Git .
Importante
Os arquivos de espaço de trabalho são ativados em todos os lugares pelo site default na versão 11.2 do Databricks Runtime. Para cargas de trabalho de produção, use Databricks Runtime 11.3 LTS ou acima. Entre em contato com o administrador do site workspace se não conseguir acessar essa funcionalidade.
O que você pode fazer com arquivos do espaço de trabalho
O Databricks oferece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de workspace, incluindo um editor de arquivos interno. Nem todos os casos de uso de todos os tipos de arquivo são compatíveis.
Você pode criar, editar e gerenciar o acesso aos arquivos do workspace com padrões familiares das interações do notebook. Você pode usar caminhos relativos para importações de biblioteca de arquivos de workspace, semelhante ao desenvolvimento local. Para mais detalhes, consulte:
init script armazenado em arquivos workspace tem um comportamento especial. Você pode usar arquivos de workspace para armazenar e fazer referência init script em qualquer versão do Databricks Runtime. Consulte Armazenar init script em arquivos da área de trabalho.
Observação
No Databricks Runtime 14.0 e acima, o diretório de trabalho atual (CWD) default para o código executado localmente é o diretório que contém o Notebook ou script que está sendo executado. Esta é uma mudança de comportamento do Databricks Runtime 13.3 LTS e abaixo. Consulte Qual é o diretório de trabalho atual default ?.
Limitações
Se o seu fluxo de trabalho usar código-fonte localizado em um repositório Git remoto, não será possível gravar no diretório atual ou usar um caminho relativo. Grave dados em outras opções de localização.
Não é possível usar o comando
git
quando o senhor salva em arquivos workspace. A criação de diretórios.git
não é permitida nos arquivos workspace.A leitura de arquivos workspace usando o executor Spark (como
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
) não é compatível com o serverless compute.O executor não pode gravar em arquivos workspace.
Os links simbólicos são suportados para diretórios de destino na pasta raiz
/Workspace
.Os arquivos do espaço de trabalho não podem ser acessados a partir de funções definidas pelo usuário (UDFs) em clusters com modo de acesso compartilhado em Databricks Runtime 14.2 e abaixo.
Habilitar arquivos de espaço de trabalho
Para habilitar o suporte para arquivos que não sejamNotebook em seu espaço de trabalho Databricks, chame o /api/2.0/workspace-conf API REST de um ambiente Notebook ou outro ambiente com acesso ao seu Databricks workspace. workspace são ativados por default.
Para ativar ou reativar o suporte a arquivos que não sejamNotebook em seu Databricks workspace, chame o /api/2.0/workspace-conf
e obtenha o valor do enableWorkspaceFileSystem
key. Se estiver definido como true
, os arquivos nãoNotebook já estão habilitados para o seu workspace.
O exemplo a seguir demonstra como o senhor pode chamar esse API a partir de um Notebook para verificar se os arquivos workspace estão desativados e, em caso afirmativo, reativá-los.