Pular para o conteúdo principal

O que são arquivos workspace?

Um arquivo workspace é um arquivo em sua árvore de arquivos Databricks workspace que não é um dos tipos listados a seguir:

  • Consultas
  • Painéis
  • Genie spaces
  • Experiências

Além desses tipos excluídos, os arquivos workspace podem ser de qualquer tipo. Exemplos comuns incluem:

  • .ipynb Notebooks
  • Notebook de origem, que usam as extensões .py, .sql, .r e .scala
  • .py arquivos usados em módulos personalizados
  • .md arquivos, como README.md
  • .csv ou outros pequenos arquivos de dados
  • .txt Arquivos
  • .whl Bibliotecas
  • arquivos de registro

Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e workspace files.

Sua árvore de arquivos Databricks workspace pode conter pastas anexadas a um repositório Git chamado "Databricks Git folders". Eles têm algumas limitações adicionais no suporte a tipos de arquivo. Para obter uma lista dos tipos de arquivos compatíveis com as Git pastas (anteriormenteRepos""), consulte os tipos de Git arquivos ativos compatíveis com as pastas.

important

Os arquivos de espaço de trabalho são ativados em todos os lugares pelo site default na versão 11.2 do Databricks Runtime. Para cargas de trabalho de produção, use Databricks Runtime 11.3 LTS ou acima. Entre em contato com o administrador do site workspace se não conseguir acessar essa funcionalidade.

O que o senhor pode fazer com os arquivos workspace

O Databricks oferece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivo de workspace, incluindo um editor de arquivos interno. Nem todos os casos de uso de todos os tipos de arquivo são compatíveis.

Você pode criar, editar e gerenciar o acesso aos arquivos do workspace com padrões familiares das interações do notebook. Você pode usar caminhos relativos para importações de biblioteca de arquivos de workspace, semelhante ao desenvolvimento local. Para mais detalhes, consulte:

O script de inicialização armazenado nos arquivos workspace tem um comportamento especial. O senhor pode usar os arquivos workspace para armazenar e fazer referência ao script de inicialização em qualquer versão do Databricks Runtime. Consulte Store init script em workspace files.

nota

Em Databricks Runtime 14.0 e acima, o diretório de trabalho atual (CWD) de default para o código executado localmente é o diretório que contém o Notebook ou o script que está sendo executado. Essa é uma mudança de comportamento em relação a Databricks Runtime 13.3 LTS e abaixo. Consulte Qual é o diretório de trabalho atual do default.

Limitações

  • Se o seu fluxo de trabalho usar código-fonte localizado em um repositório Git remoto, não será possível gravar no diretório atual ou usar um caminho relativo. Grave dados em outras opções de localização.
  • Não é possível usar o comando git quando o senhor salva em arquivos workspace. A criação de diretórios .git não é permitida nos arquivos workspace.
  • A leitura de arquivos workspace usando o executor Spark (como spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) não é compatível com o serverless compute .
  • O executor não pode gravar em arquivos workspace.
  • Os links simbólicos só são suportados para diretórios de destino na pasta raiz /Workspace, como os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • Os arquivos do espaço de trabalho não podem ser acessados a partir de funções definidas pelo usuário (UDFs) em clustering com modo de acesso padrão em Databricks Runtime 14.2 e abaixo.
  • Os notebooks são suportados apenas como arquivos workspace em Databricks Runtime 16.2 e acima, e em serverless environment 2 e acima.

Limite de tamanho de arquivo

  • O tamanho do arquivo do espaço de trabalho é limitado a 500 MB. As operações que tentarem fazer download ou criar arquivos maiores que esse limite falharão.

Limite de permissão de acesso a arquivos

A permissão para acessar arquivos em pastas sob /Workspace expira após 36 horas para o site interativo compute e após 30 dias para o Job. Databricks recomenda executar execuções longas como Job se elas precisarem de acesso ao arquivo /workspace.

Habilite workspace files

Para habilitar o suporte a arquivos que não sejam do Notebook em seu Databricks workspace, chame o comando /api/2.0/workspace -conf REST API de um Notebook ou de outro ambiente com acesso ao seu Databricks workspace. Os arquivos de espaço de trabalho são ativados por default.

Para ativar ou reativar o suporte a arquivos que não sejam do Notebook em seu Databricks workspace, chame o /api/2.0/workspace-conf e obtenha o valor do enableWorkspaceFileSystem key. Se estiver definido como true, os arquivos que não são do Notebook já estão habilitados para o seu workspace.

O exemplo a seguir demonstra como o senhor pode chamar esse API a partir de um Notebook para verificar se os arquivos workspace estão desativados e, em caso afirmativo, reativá-los.

Exemplo: Notebook para reativar o suporte a arquivos Databricks workspace

Open notebook in new tab