Recomendações para arquivos em volumes e arquivos workspace
Ao acessar upload ou salvar dados ou arquivos em Databricks, o senhor pode optar por armazenar esses arquivos usando volumes Unity Catalog ou arquivos workspace. Este artigo contém recomendações e requisitos para o uso desses locais. Para obter mais detalhes sobre volumes e arquivos workspace, consulte O que são volumes Unity Catalog? e O que são arquivos workspace?
Databricks Recomenda-se utilizar volumes Unity Catalog para armazenar dados, bibliotecas e construir artefatos. Armazene o Notebook, as consultas do SQL e os arquivos de código como arquivos workspace. É possível configurar diretórios de arquivos workspace como pastas Git para sincronizar com repositórios Git remotos. Consulte O que são pastas Git do Databricks. Pequenos arquivos de dados utilizados para cenários de teste também podem ser armazenados como arquivos de e workspace.
As tabelas abaixo fornecem recomendações específicas para arquivos, dependendo do seu tipo de arquivo ou das necessidades de recurso.
O sistema de arquivos Databricks (DBFS) também está disponível para armazenamento de arquivos, mas não é recomendado, pois todos os usuários do workspace têm acesso aos arquivos em DBFS. Consulte DBFS.
Tipos de arquivo
A tabela a seguir fornece recomendações de armazenamento para tipos de arquivo. O Databricks suporta muitos formatos de arquivo além dos que são fornecidos nesta tabela como exemplos.
Tipo de Arquivo | Recomendação |
---|---|
Databricks objetos, como o Notebook e as consultas | Armazenar como arquivos workspace |
Arquivos de dados estruturados, como arquivos Parquet e arquivos ORC | Armazenamento em volumes do Unity Catalog |
Arquivos de dados semiestruturados, como arquivos de texto ( | Armazenamento em volumes do Unity Catalog |
Arquivos de dados não estruturados, como arquivos de imagem ( | Armazenamento em volumes do Unity Catalog |
Arquivos de dados brutos usados para exploração adhoc ou inicial de dados | Armazenamento em volumes do Unity Catalog |
Dados operacionais, como arquivos log | Armazenamento em volumes do Unity Catalog |
Arquivos de arquivamento grandes, como arquivos ZIP ( | Armazenamento em volumes do Unity Catalog |
Arquivos de código-fonte, como arquivos Python ( | Armazene como arquivos workspace, se aplicável, com outros objetos relacionados, como Notebook e consultas. Databricks recomenda gerenciar esses arquivos em uma pastaGit para controle de versão e acompanhamento de alterações desses arquivos. |
Crie artefatos e biblioteca, como as rodas Python ( | Armazenamento em volumes do Unity Catalog |
Arquivos de configuração | Armazene os arquivos de configuração necessários em todo o espaço de trabalho em volumes Unity Catalog, mas armazene-os como arquivos workspace se forem arquivos de projeto em uma pastaGit. |
comparação de recursos
A tabela a seguir compara as ofertas de workspace recurso dos arquivos e dos Unity Catalog volumes.
Recurso | arquivos do espaço de trabalho | Unity Catalog volumes |
---|---|---|
Acesso ao arquivo | Os arquivos do espaço de trabalho só podem ser acessados entre si dentro do mesmo workspace. | Os arquivos podem ser acessados globalmente em todo o espaço de trabalho. |
Acesso programático | Os arquivos podem ser acessados usando:
| Os arquivos podem ser acessados usando: |
Databricks Asset Bundles | Em default, todos os arquivos em um pacote, que inclui biblioteca e objetos Databricks como Notebook e consultas, são implantados com segurança como arquivos workspace. As permissões são definidas na configuração do pacote. | Os pacotes podem ser personalizados para incluir a biblioteca já em volumes quando a biblioteca exceder o limite de tamanho dos arquivos workspace. Consulte Databricks ativo Bundles biblioteca dependencies. |
Nível de permissão de arquivo | As permissões estão no nível da pasta Git se o arquivo estiver em uma pasta Git; caso contrário, as permissões são definidas no nível do arquivo. | As permissões estão no nível do volume. |
Gerenciamento de permissões | As permissões são gerenciadas pelas workspace ACLs do site e são limitadas ao site que as workspace contém. | Os metadados e as permissões são gerenciados por Unity Catalog. Essas permissões são aplicáveis a todos os espaços de trabalho que têm acesso ao catálogo. |
Suporte de armazenamento externo | Não suporta a montagem de armazenamento externo | Oferece a opção de apontar para um conjunto de dados pré-existente no armazenamento externo, criando um volume externo. Consulte O que são volumes do Unity Catalog? |
Suporte a UDF | Não suportado | A gravação a partir de UDFs é suportada usando Volumes FUSE |
Tamanho do Arquivo | Armazene arquivos menores, com menos de 500 MB, como arquivos de código-fonte ( | Armazenar arquivos de dados muito grandes nos limites determinados pelos provedores de serviços em nuvem. |
upload & download | Suporte para upload e download de até 10 MB. | Suporte para upload e download de até 5 GB. |
Suporte à criação de tabelas | As tabelas não podem ser criadas com arquivos workspace como local. | As tabelas podem ser criadas a partir de arquivos em um volume executando |
Estrutura de diretórios &: caminhos de arquivo | Os arquivos são organizados em diretórios aninhados, cada um com seu próprio modelo de permissão:
| Os arquivos são organizados em diretórios aninhados dentro de um volume |
Arquivo histórico | Use a pastaGit no espaço de trabalho para rastrear as alterações nos arquivos. | Auditoria logs está disponível. |