Explore o armazenamento e encontre arquivos de dados
Este artigo se concentra na descoberta e na exploração de diretórios e arquivos de dados gerenciar com Unity Catalog volumes, incluindo instruções baseadas em UI para explorar volumes com o Catalog Explorer. Este artigo também fornece exemplos de exploração programática de dados no armazenamento de objetos em nuvem usando caminhos de volume e URIs de nuvem.
A Databricks recomenda o uso de volumes para gerenciar o acesso aos dados no armazenamento de objetos na nuvem. Para obter mais informações sobre como se conectar a dados no armazenamento de objetos na nuvem, consulte Conectar-se à fonte de dados.
Para obter um passo a passo completo sobre como interagir com arquivos em todos os locais, consulte Trabalhar com arquivos no Databricks.
Ao procurar por arquivos na interface do usuário workspace, o senhor pode descobrir arquivos de dados armazenados como arquivos workspace. Databricks recomenda o uso de arquivos workspace principalmente para código (como scripts e biblioteca), script de inicialização ou arquivos de configuração. O ideal é que o senhor limite os dados armazenados como arquivos workspace a pequenos conjuntos de dados que possam ser usados para tarefas como testes durante o desenvolvimento e a garantia de qualidade. Consulte O que são arquivos workspace?
Volumes versus configurações de objetos de nuvem legados
Quando o senhor usa volumes para gerenciar o acesso aos dados no armazenamento de objetos na nuvem, só pode usar o caminho dos volumes para acessar os dados, e esses caminhos estão disponíveis em todos os catálogos do Unity Catalog habilitados compute. O senhor não pode registrar arquivos de dados que fazem backup de tabelas Unity Catalog usando volumes. A Databricks recomenda o uso de nomes de tabelas em vez de caminhos de arquivos para interagir com dados estruturados registrados como tabelas do Unity Catalog. Consulte Como funcionam os caminhos para gerenciar dados em Unity Catalog?
Se o senhor usar um método herdado para configurar o acesso aos dados no armazenamento de objetos na nuvem, o Databricks reverterá para as permissões de ACLs de tabela herdadas. Os usuários que desejam acessar os URIs de uso de dados na nuvem do armazém SQL ou compute configurado com o modo de acesso padrão (anteriormente compartilhado) precisam da permissão ANY FILE
. Consulte Hive metastore controle de acesso da tabela (legado).
A Databricks fornece várias APIs para listar arquivos no armazenamento de objetos na nuvem. A maioria dos exemplos neste artigo se concentra no uso de volumes. Para obter exemplos sobre como interagir com dados no armazenamento de objetos configurado sem volumes, consulte Listar arquivos com URIs.
Explore os volumes
Você pode usar o Catalog Explorer para explorar dados em volumes e revisar os detalhes de um volume. Você só pode ver os volumes que tem permissão para ler, então você pode consultar todos os dados descobertos dessa forma.
O senhor pode usar o SQL para explorar volumes e seus metadados. Para listar arquivos em volumes, o senhor pode usar SQL, o comando mágico %fs
ou as utilidades Databricks. Ao interagir com dados em volumes, o senhor usa o caminho fornecido pelo Unity Catalog, que sempre tem o seguinte formato:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Volumes de exibição
- SQL
- Catalog Explorer
Execute o seguinte comando para ver uma lista de volumes em um determinado esquema.
SHOW VOLUMES IN catalog_name.schema_name;
Consulte SHOW VOLUMES.
Para exibir volumes em um determinado esquema com o Catalog Explorer, faça o seguinte:
- Selecione o ícone
Catálogo .
- Selecione um catálogo.
- Selecione um esquema.
- Clique em Volumes para expandir todos os volumes no esquema.
Se nenhum volume estiver registrado em um esquema, a opção Volumes não será exibida. Em vez disso, você verá uma lista de tabelas disponíveis.
Veja os detalhes do volume
- SQL
- Catalog Explorer
Execute o seguinte comando para descrever um volume.
DESCRIBE VOLUME volume_name
Consulte DESCRIBE VOLUME.
Clique no nome do volume e selecione Details (Detalhes) tab para revisar os detalhes do volume.
Veja arquivos em volumes
- SQL
- Catalog Explorer
- %fs
- Databricks utilities
Execute o seguinte comando para listar os arquivos em um volume.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Clique no nome do volume e selecione Details (Detalhes) tab para revisar os detalhes do volume.
Execute o seguinte comando para listar os arquivos em um volume.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Execute o seguinte comando para listar os arquivos em um volume.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Visualize arquivos em volumes
Clique no nome de um arquivo em um volume do Catalog Explorer para ver uma prévia do arquivo.
Os usuários devem ter a permissão READ VOLUME
no volume que o contém para visualizar os arquivos.
Os arquivos de texto exibem o conteúdo em texto simples.
Os arquivos de imagem compatíveis renderizam imagens.
A experiência de visualização tenta fornecer destaque de sintaxe para arquivos como .yml
, .yaml
e .json
.
As visualizações prévias podem não ser renderizadas corretamente se os arquivos estiverem corrompidos, o conteúdo estiver malformado ou a extensão errada for usada.
Os seguintes formatos de arquivo são suportados:
- Arquivos de imagem : jpg, jpeg, png, gif, bmp, webp, ico
- Arquivos de texto : txt, log, md
- Arquivos de dados semiestruturados : JSON, csv
- Arquivos de configuração : yaml, yml
Listar arquivos com URIs
Você pode consultar o armazenamento de objetos na nuvem configurado com métodos diferentes de volumes usando URIs. O senhor deve estar conectado a compute com privilégios para acessar o local da nuvem. A permissão ANY FILE
é necessária nos armazéns SQL e compute configurados com o modo de acesso padrão (antigo modo de acesso compartilhado).
O acesso por URI ao armazenamento de objetos configurado com volumes não é suportado. Você não pode usar o Catalog Explorer para revisar o conteúdo do armazenamento de objetos não configurado com volumes.
Os exemplos a seguir incluem URIs de exemplo para dados armazenados no data lake Storage Azure, S3 e GCS.
- SQL
- %fs
- Databricks utilities
Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")