Explore o armazenamento e encontre arquivos de dados
Este artigo se concentra na descoberta e na exploração de diretórios e arquivos de dados gerenciar com Unity Catalog volumes, incluindo instruções baseadas em UI para explorar volumes com o Catalog Explorer. Este artigo também fornece exemplos de exploração programática de dados no armazenamento de objetos em nuvem usando caminhos de volume e URIs de nuvem.
A Databricks recomenda o uso de volumes para gerenciar o acesso aos dados no armazenamento de objetos na nuvem. Para obter mais informações sobre como se conectar a dados no armazenamento de objetos na nuvem, consulte Conectar-se à fonte de dados.
Para obter um passo a passo completo sobre como interagir com arquivos em todos os locais, consulte Trabalhar com arquivos no Databricks.
Ao procurar por arquivos na interface do usuário workspace, o senhor pode descobrir arquivos de dados armazenados como arquivos workspace. Databricks recomenda o uso de arquivos workspace principalmente para código (como scripts e biblioteca), script de inicialização ou arquivos de configuração. O ideal é que o senhor limite os dados armazenados como arquivos workspace a pequenos conjuntos de dados que possam ser usados para tarefas como testes durante o desenvolvimento e a garantia de qualidade. Consulte O que são arquivos workspace?
Volumes versus configurações de objetos de nuvem legados
Quando o senhor usa volumes para gerenciar o acesso aos dados no armazenamento de objetos na nuvem, só pode usar o caminho dos volumes para acessar os dados, e esses caminhos estão disponíveis em todos os catálogos do Unity Catalog habilitados compute. O senhor não pode registrar arquivos de dados que fazem backup de tabelas Unity Catalog usando volumes. A Databricks recomenda o uso de nomes de tabelas em vez de caminhos de arquivos para interagir com dados estruturados registrados como tabelas do Unity Catalog. Consulte Como funcionam os caminhos para gerenciar dados em Unity Catalog?
Se o senhor usar um método herdado para configurar o acesso aos dados no armazenamento de objetos na nuvem, o Databricks reverterá para as permissões de ACLs de tabela herdadas. Os usuários que desejam acessar os URIs de uso de dados na nuvem do armazém SQL ou compute configurado com o modo de acesso padrão (anteriormente compartilhado) precisam da permissão ANY FILE
. Consulte Hive metastore controle de acesso da tabela (legado).
A Databricks fornece várias APIs para listar arquivos no armazenamento de objetos na nuvem. A maioria dos exemplos neste artigo se concentra no uso de volumes. Para obter exemplos sobre como interagir com dados no armazenamento de objetos configurado sem volumes, consulte Listar arquivos com URIs.
Explore os volumes
Você pode usar o Catalog Explorer para explorar dados em volumes e revisar os detalhes de um volume. Você só pode ver os volumes que tem permissão para ler, então você pode consultar todos os dados descobertos dessa forma.
O senhor pode usar o SQL para explorar volumes e seus metadados. Para listar arquivos em volumes, o senhor pode usar SQL, o comando mágico %fs
ou as utilidades Databricks. Ao interagir com dados em volumes, o senhor usa o caminho fornecido pelo Unity Catalog, que sempre tem o seguinte formato:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Volumes de exibição
- SQL
- Catalog Explorer
Run the following command to see a list of volumes in a given schema.
SHOW VOLUMES IN catalog_name.schema_name;
See SHOW VOLUMES.
To display volumes in a given schema with Catalog Explorer, do the following:
-
Select the
Catalog icon.
-
Select a catalog.
-
Select a schema.
-
Click Volumes to expand all volumes in the schema.
If no volumes are registered to a schema, the Volumes option is not displayed. Instead, you see a list of available tables.
Veja os detalhes do volume
- SQL
- Catalog Explorer
Click the volume name and select the Details tab to review volume details.
Veja arquivos em volumes
- SQL
- Catalog Explorer
- %fs
- Databricks utilities
Run the following command to list the files in a volume.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Click the volume name and select the Details tab to review volume details.
Run the following command to list the files in a volume.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Run the following command to list the files in a volume.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Visualize arquivos em volumes
Clique no nome de um arquivo em um volume do Catalog Explorer para ver uma prévia do arquivo.
Os usuários devem ter a permissão READ VOLUME
no volume que o contém para visualizar os arquivos.
Os arquivos de texto exibem o conteúdo em texto simples.
Os arquivos de imagem compatíveis renderizam imagens.
A experiência de visualização tenta fornecer destaque de sintaxe para arquivos como .yml
, .yaml
e .json
.
As visualizações prévias podem não ser renderizadas corretamente se os arquivos estiverem corrompidos, o conteúdo estiver malformado ou a extensão errada for usada.
Os seguintes formatos de arquivo são suportados:
- Arquivos de imagem : jpg, jpeg, png, gif, bmp, webp, ico
- Arquivos de texto : txt, log, md
- Arquivos de dados semiestruturados : JSON, csv
- Arquivos de configuração : yaml, yml
Listar arquivos com URIs
Você pode consultar o armazenamento de objetos na nuvem configurado com métodos diferentes de volumes usando URIs. O senhor deve estar conectado a compute com privilégios para acessar o local da nuvem. A permissão ANY FILE
é necessária nos armazéns SQL e compute configurados com o modo de acesso padrão (antigo modo de acesso compartilhado).
O acesso por URI ao armazenamento de objetos configurado com volumes não é suportado. Você não pode usar o Catalog Explorer para revisar o conteúdo do armazenamento de objetos não configurado com volumes.
Os exemplos a seguir incluem URIs de exemplo para dados armazenados no data lake Storage Azure, S3 e GCS.
- SQL
- %fs
- Databricks utilities
Run the following command to list files in cloud object storage.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
Run the following command to list files in cloud object storage.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Run the following command to list files in cloud object storage.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")