O que são volumes do Unity Catalog?
Os volumes são objetos Unity Catalog que permitem a governança de conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos na nuvem. Os volumes fornecem recursos para acessar, armazenar, controlar e organizar arquivos.
Enquanto as tabelas fornecem governança sobre o conjunto de dados tabulares, os volumes adicionam governança sobre o conjunto de dados não tabulares. Você pode usar volumes para armazenar e acessar arquivos em qualquer formato, incluindo dados estruturados, semiestruturados e não estruturados.
Casos de uso para volumes
A Databricks recomenda o uso de volumes para controlar o acesso a todos os dados não tabulares. Assim como as tabelas, os volumes podem ser gerenciados ou externos.
Os casos de uso de volumes incluem:
- Registre áreas de destino para dados brutos produzidos por sistemas externos para apoiar seu processamento nos estágios iniciais de pipelines de ETL e outras atividades de engenharia de dados.
- Registre locais de preparação para ingestão, por exemplo, usando instruções de Auto Loader,
COPY INTO
ou CTAS (CREATE TABLE AS
). - Fornecer locais de armazenamento de arquivos para data scientists, analista de dados e engenheiros de aprendizado de máquina usarem como parte de sua análise exploratória de dados e outras tarefas de ciência de dados.
- Conceda aos usuários do Databricks acesso a arquivos arbitrários produzidos e depositados no armazenamento em nuvem por outros sistemas, por exemplo, grandes coleções de dados não estruturados (como arquivos de imagem, áudio, vídeo e PDF) capturados por sistemas de vigilância ou dispositivos IoT, ou arquivos de biblioteca (JARs e arquivos Python wheel) exportados de sistemas locais de gerenciamento de dependências ou pipelines de CI/CD.
- Armazene dados operacionais, como arquivos de registro ou checkpoint.
O senhor não pode registrar arquivos em volumes como tabelas em Unity Catalog. Os volumes são destinados somente ao acesso a dados baseado em caminhos. Use tabelas quando o senhor quiser trabalhar com dados tabulares no Unity Catalog.
O que é um volume gerenciar?
Um volume gerenciar é um volume de armazenamento governado pelo Unity Catalog criado no local de armazenamento gerenciar do esquema que o contém. Consulte Especificar um local de armazenamento gerenciar em Unity Catalog.
gerenciar volumes permite a criação de armazenamento controlado para trabalhar com arquivos sem a sobrecarga de locais externos e credenciais de armazenamento. Você não precisa especificar um local ao criar um volume gerenciado, e todo acesso a arquivos para dados em volumes gerenciados é através de caminhos gerenciados pelo Unity Catalog.
O que é um volume externo?
Um volume externo é um volume de armazenamento regido pelo Unity Catalog registrado em um diretório em um local externo usando credenciais de armazenamento regido pelo Unity Catalog.
Unity Catalog não gerencia o ciclo de vida e a disposição dos arquivos em volumes externos. Quando o senhor solta um volume externo, o Unity Catalog não exclui os dados subjacentes.
Qual caminho é usado para acessar arquivos em um volume?
Os volumes estão no terceiro nível do namespace de três níveis do Unity Catalog (catalog.schema.volume
):
O caminho para acessar os volumes é o mesmo, quer o senhor use Apache Spark, SQL, Python, ou outros idiomas e biblioteca. Isso difere dos padrões de acesso herdados para arquivos no armazenamento de objetos vinculados a um Databricks workspace.
O caminho para acessar arquivos em volumes usa o seguinte formato:
/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
A Databricks também oferece suporte a um esquema dbfs:/
opcional ao trabalhar com o Apache Spark, portanto, o seguinte caminho também funciona:
dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
A sequência /<catalog>/<schema>/<volume>
no caminho corresponde aos três nomes de objetos do Unity Catalog associados ao arquivo. Esses elementos de caminho são somente de leitura e não podem ser gravados diretamente pelos usuários, o que significa que não é possível criar ou excluir esses diretórios usando operações do sistema de arquivos. Eles são gerenciados automaticamente e mantidos em sincronia com as entidades correspondentes do site Unity Catalog.
Você também pode acessar dados em volumes externos usando URIs de armazenamento em nuvem.
Caminhos reservados para volumes
Volumes apresenta os seguintes caminhos reservados usados para acessar volumes:
dbfs:/Volumes
/Volumes
Os caminhos também são reservados para possíveis erros de digitação para esses caminhos das APIs do Apache Spark e dbutils
, incluindo /volumes
, /Volume
, /volume
, independentemente de serem ou não precedidos por dbfs:/
. O caminho /dbfs/Volumes
também é reservado, mas não pode ser usado para acessar volumes.
Os volumes são compatíveis apenas com o Databricks Runtime 13.3 LTS e acima. Em Databricks Runtime 12.2 LTS e abaixo, as operações contra os caminhos /Volumes
podem ser bem-sucedidas, mas só podem gravar dados em discos de armazenamento efêmeros anexados ao clustering compute, em vez de persistir os dados em volumes Unity Catalog, como esperado.
Se o senhor tiver dados pré-existentes armazenados em um caminho reservado no site DBFS root, poderá registrar um tíquete de suporte para obter acesso temporário a esses dados e movê-los para outro local.
requisitos de computação
Ao trabalhar com volumes, o senhor deve usar um SQL warehouse ou um clustering que esteja executando Databricks Runtime 13.3 LTS ou acima, a menos que esteja usando Databricks UIs, como o Catalog Explorer.
Limitações
O senhor deve usar Unity Catalog-enabled compute para interagir com os volumes Unity Catalog. Os volumes não suportam todas as cargas de trabalho.
A tabela a seguir descreve as limitações de volume do Unity Catalog com base na versão do Databricks Runtime:
Versão do Databricks Runtime | Limitações |
---|---|
Todas as versões suportadas do Databricks Runtime |
|
14.3 LTS e acima |
|
14.2 e abaixo |
|
Próximas etapas
Os artigos a seguir fornecem mais informações sobre como trabalhar com volumes: