Pular para o conteúdo principal

Fazer upload de arquivos para um volume do Unity Catalog

Você pode upload arquivos em qualquer formato para um volume, incluindo dados estruturados, semiestruturados e não estruturados. Os arquivos enviados através da interface Databricks não podem exceder 5 GB por arquivo. Para upload arquivos maiores que 5 GB, use o SDK Databricks para Python. Esta página fornece uma visão geral de todos os métodos suportados para upload arquivos em um volume: a interface do usuário Databricks , o SDK Databricks e a CLI Databricks .

Para obter mais detalhes sobre como carregar e gerenciar arquivos em volumes, consulte Trabalhar com arquivos em volumes Unity Catalog.

Pré-requisitos

Antes de fazer o upload para um volume, certifique-se de ter o seguinte:

  • Um workspace com Unity Catalog ativado.
  • WRITE VOLUME no volume alvo
  • USE SCHEMA no esquema pai
  • USE CATALOG no catálogo principal

Faça o upload usando a interface do usuário do Databricks.

Siga estes passos para upload arquivos em um volume usando a interface Databricks :

  1. Na barra lateral, clique em Novo e, em seguida, em Adicionar ou upload dados .
  2. Clique em " Carregar arquivos para um volume" .
  3. Em Arquivos , clique em Procurar ou arraste e solte os arquivos na área de destino.
  4. Em Volume de destino , selecione um volume ou diretório, ou cole o caminho do volume.

Se não existir nenhum volume no esquema de destino, você pode criar um clicando em Criar volume . Você também pode criar um novo diretório dentro do volume de destino.

Carregar um arquivo para um volume usando a interface do usuário.

Faça o upload usando o SDK do Databricks.

Os trechos de código a seguir mostram como fazer upload de arquivos usando o SDK do Databricks para Python:

Python
# --- Uploading a file to a volume ---
# Upload method 1 (recommended when your data is in a local file path)
w.files.upload_from(volume_file_path, upload_file_path, overwrite=True)


# Upload method 2 (recommended when your data is in-memory or not a local file)
with open(upload_file_path, "rb") as f:
w.files.upload(volume_file_path, io.BytesIO(f.read()), overwrite=True)

Faça o upload usando a CLI do Databricks

O exemplo a seguir carrega um arquivo chamado squirrels.csv de um caminho do sistema de arquivos local para um diretório chamado squirrel-data em um volume chamado my-volume. Se o arquivo já existir no destino, ele será sobrescrito.

databricks fs cp /Users/<username>/squirrels.csv
/Volumes/<catalog>/<schema>/my-volume/squirrel-data --overwrite