Pular para o conteúdo principal

Explore o armazenamento e encontre arquivos de dados

Este artigo se concentra na descoberta e na exploração de diretórios e arquivos de dados gerenciar com Unity Catalog volumes, incluindo instruções baseadas em UI para explorar volumes com o Catalog Explorer. Este artigo também fornece exemplos de exploração programática de dados no armazenamento de objetos em nuvem usando caminhos de volume e URIs de nuvem.

A Databricks recomenda o uso de volumes para gerenciar o acesso aos dados no armazenamento de objetos na nuvem. Para obter mais informações sobre como se conectar a dados no armazenamento de objetos na nuvem, consulte Conectar-se à fonte de dados.

Para obter um passo a passo completo sobre como interagir com arquivos em todos os locais, consulte Trabalhar com arquivos no Databricks.

important

Ao procurar por arquivos na interface do usuário workspace, o senhor pode descobrir arquivos de dados armazenados como arquivos workspace. Databricks recomenda o uso de arquivos workspace principalmente para código (como scripts e biblioteca), script de inicialização ou arquivos de configuração. O ideal é que o senhor limite os dados armazenados como arquivos workspace a pequenos conjuntos de dados que possam ser usados para tarefas como testes durante o desenvolvimento e a garantia de qualidade. Consulte O que são arquivos workspace?

Volumes versus configurações de objetos de nuvem legados

Quando o senhor usa volumes para gerenciar o acesso aos dados no armazenamento de objetos na nuvem, só pode usar o caminho dos volumes para acessar os dados, e esses caminhos estão disponíveis em todos os catálogos do Unity Catalog habilitados compute. O senhor não pode registrar arquivos de dados que fazem backup de tabelas Unity Catalog usando volumes. A Databricks recomenda o uso de nomes de tabelas em vez de caminhos de arquivos para interagir com dados estruturados registrados como tabelas do Unity Catalog. Consulte Como funcionam os caminhos para gerenciar dados em Unity Catalog?

Se o senhor usar um método herdado para configurar o acesso aos dados no armazenamento de objetos na nuvem, o Databricks reverterá para as permissões de ACLs de tabela herdadas. Os usuários que desejam acessar os URIs de uso de dados na nuvem do armazém SQL ou compute configurado com o modo de acesso padrão (anteriormente compartilhado) precisam da permissão ANY FILE. Consulte Hive metastore controle de acesso da tabela (legado).

A Databricks fornece várias APIs para listar arquivos no armazenamento de objetos na nuvem. A maioria dos exemplos neste artigo se concentra no uso de volumes. Para obter exemplos sobre como interagir com dados no armazenamento de objetos configurado sem volumes, consulte Listar arquivos com URIs.

Explore os volumes

Você pode usar o Catalog Explorer para explorar dados em volumes e revisar os detalhes de um volume. Você só pode ver os volumes que tem permissão para ler, então você pode consultar todos os dados descobertos dessa forma.

O senhor pode usar o SQL para explorar volumes e seus metadados. Para listar arquivos em volumes, o senhor pode usar SQL, o comando mágico %fs ou as utilidades Databricks. Ao interagir com dados em volumes, o senhor usa o caminho fornecido pelo Unity Catalog, que sempre tem o seguinte formato:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Volumes de exibição

Run the following command to see a list of volumes in a given schema.

SQL
SHOW VOLUMES IN catalog_name.schema_name;

See SHOW VOLUMES.

Veja os detalhes do volume

Run the following command to describe a volume.

SQL
DESCRIBE VOLUME volume_name

See DESCRIBE VOLUME.

Veja arquivos em volumes

Run the following command to list the files in a volume.

SQL
LIST '/Volumes/catalog_name/schema_name/volume_name/'

Visualize arquivos em volumes

Clique no nome de um arquivo em um volume do Catalog Explorer para ver uma prévia do arquivo.

important

Os usuários devem ter a permissão READ VOLUME no volume que o contém para visualizar os arquivos.

Os arquivos de texto exibem o conteúdo em texto simples.

Os arquivos de imagem compatíveis renderizam imagens.

A experiência de visualização tenta fornecer destaque de sintaxe para arquivos como .yml, .yaml e .json.

nota

As visualizações prévias podem não ser renderizadas corretamente se os arquivos estiverem corrompidos, o conteúdo estiver malformado ou a extensão errada for usada.

Os seguintes formatos de arquivo são suportados:

  • Arquivos de imagem : jpg, jpeg, png, gif, bmp, webp, ico
  • Arquivos de texto : txt, log, md
  • Arquivos de dados semiestruturados : JSON, csv
  • Arquivos de configuração : yaml, yml

Listar arquivos com URIs

Você pode consultar o armazenamento de objetos na nuvem configurado com métodos diferentes de volumes usando URIs. O senhor deve estar conectado a compute com privilégios para acessar o local da nuvem. A permissão ANY FILE é necessária nos armazéns SQL e compute configurados com o modo de acesso padrão (antigo modo de acesso compartilhado).

nota

O acesso por URI ao armazenamento de objetos configurado com volumes não é suportado. Você não pode usar o Catalog Explorer para revisar o conteúdo do armazenamento de objetos não configurado com volumes.

Os exemplos a seguir incluem URIs de exemplo para dados armazenados no data lake Storage Azure, S3 e GCS.

Run the following command to list files in cloud object storage.

SQL
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'