O que são volumes do Unity Catalog?

Os volumes são objetos Unity Catalog que permitem a governança de conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos cloud. Os volumes oferecem recursos para acessar, armazenar, controlar e organizar arquivos.

Enquanto as tabelas fornecem governança sobre o conjunto de dados tabulares, os volumes adicionam governança sobre o conjunto de dados não tabulares. O senhor pode usar volumes para armazenar e acessar arquivos em qualquer formato, inclusive dados estruturados, semiestruturados e não estruturados.

A Databricks recomenda o uso de volumes para controlar o acesso a todos os dados não tabulares. Assim como as tabelas, os volumes podem ser gerenciados ou externos.

Importante

O senhor não pode usar volumes como local para tabelas. Os volumes destinam-se apenas ao acesso a dados baseado em caminhos. Use tabelas quando o senhor quiser trabalhar com dados tabulares no Unity Catalog.

Os artigos a seguir fornecem mais informações sobre como trabalhar com volumes:

Observação

Ao trabalhar com volumes, o senhor deve usar um SQL warehouse ou um cluster executando Databricks Runtime 13.3 LTS ou acima, a menos que esteja usando Databricks UIs, como o Catalog Explorer.

O que é um volume gerenciar?

Um volume gerenciar é um volume de armazenamento governado pelo Unity Catalog criado no local de armazenamento gerenciar do esquema que o contém. Consulte Especificar um local de armazenamento gerenciar em Unity Catalog.

gerenciar volumes permite a criação de armazenamento controlado para trabalhar com arquivos sem a sobrecarga de locais externos e credenciais de armazenamento. Você não precisa especificar um local ao criar um volume gerenciado, e todo acesso a arquivos para dados em volumes gerenciados é através de caminhos gerenciados pelo Unity Catalog.

O que é um volume externo?

Um volume externo é um volume de armazenamento regido pelo Unity Catalog registrado em um diretório em um local externo usando credenciais de armazenamento regido pelo Unity Catalog.

Unity Catalog não gerencia o ciclo de vida e a disposição dos arquivos em volumes externos. Quando o senhor solta um volume externo, o Unity Catalog não exclui os dados subjacentes.

Que caminho é usado para acessar arquivos em um volume?

Os volumes estão no terceiro nível do namespace de três níveis do Unity Catalog (catalog.schema.volume):

Diagrama do modelo de objeto do Unity Catalog, com foco no volume

O caminho para acessar os volumes é o mesmo, quer o senhor use Apache Spark, SQL, Python, ou outros idiomas e biblioteca. Isso difere dos padrões de acesso herdados para arquivos no armazenamento de objetos vinculados a um Databricks workspace.

O caminho para acessar arquivos em volumes usa o seguinte formato:

/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>

O Databricks também oferece suporte a um esquema dbfs:/ opcional ao trabalhar com o Apache Spark, portanto, o caminho a seguir também funciona:

dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>

A sequência /<catalog>/<schema>/<volume> no caminho corresponde aos três nomes de objetos do Unity Catalog associados ao arquivo. Esses elementos de caminho são somente de leitura e não podem ser gravados diretamente pelos usuários, o que significa que não é possível criar ou excluir esses diretórios usando operações do sistema de arquivos. Eles são gerenciados automaticamente e mantidos em sincronia com as entidades correspondentes do site Unity Catalog.

Observação

O senhor também pode acessar dados em volumes externos usando URIs de armazenamento cloud.

Caminhos reservados para volumes

Os volumes introduzem os seguintes caminhos reservados usados para acessar volumes:

  • dbfs:/Volumes

  • /Volumes

Observação

Os caminhos também são reservados para possíveis erros de digitação para esses caminhos das APIs do Apache Spark e dbutils, incluindo /volumes, /Volume, /volume, independentemente de serem ou não precedidos por dbfs:/. O caminho /dbfs/Volumes também é reservado, mas não pode ser usado para acessar volumes.

Os volumes são compatíveis apenas com o Databricks Runtime 13.3 LTS e acima. Em Databricks Runtime 12.2 LTS e abaixo, as operações contra caminhos /Volumes podem ser bem-sucedidas, mas elas só podem gravar dados em discos de armazenamento efêmeros anexados a compute clusters em vez de persistir os dados em volumes Unity Catalog, como esperado.

Importante

Se o senhor tiver dados pré-existentes armazenados em um caminho reservado no site DBFS root, poderá registrar um tíquete de suporte para obter acesso temporário a esses dados e movê-los para outro local.

Limitações

O senhor deve usar Unity Catalog-enabled compute para interagir com os volumes Unity Catalog. Os volumes não são compatíveis com todas as cargas de trabalho.

Observação

Os volumes não suportam dbutils.fs comando distribuído para o executor.

Aplicam-se as seguintes limitações:

Em Databricks Runtime 14.3 LTS e acima:

  • Em clusters de usuário único, não é possível acessar volumes de threads e subprocessos no Scala.

No Databricks Runtime 14.2 e abaixo:

  • Em compute configurado com o modo de acesso compartilhado, o senhor não pode usar UDFs para acessar volumes.

    • Tanto o Python quanto o Scala têm acesso ao FUSE pelo driver, mas não pelo executor.

    • Scala O código que realiza operações de E/S pode ser executado no driver, mas não no executor.

  • Em compute configurado com o modo de acesso de usuário único, não há suporte para FUSE em Scala, Scala IO code acessando caminhos de volume de uso de dados ou Scala UDFs. As UDFs do Python são compatíveis com o modo de acesso de usuário único.

Em todas as versões compatíveis do Databricks Runtime:

  • Os UDFs do Unity Catalog não suportam o acesso a caminhos de arquivos de volume.

  • O senhor não pode acessar volumes de RDDs.

  • O senhor não pode usar o spark-submit com JARs armazenados em um volume.

  • O senhor não pode definir dependências para outras bibliotecas acessadas por meio de caminhos de volume dentro de um arquivo wheel ou JAR.

  • O senhor não pode listar objetos do Unity Catalog usando os padrões /Volumes/<catalog-name> ou /Volumes/<catalog-name>/<schema-name>. O senhor deve usar um caminho totalmente qualificado que inclua um nome de volume.

  • O site DBFS endpoint para o site REST API não oferece suporte a caminhos de volumes.

  • O senhor não pode especificar volumes como destino para a entrega cluster log .

  • %sh mv não é compatível com a movimentação de arquivos entre volumes. Em vez disso, use dbutils.fs.mv ou %sh cp.

  • O senhor não pode criar um sistema de arquivos Hadoop personalizado com volumes, o que significa que não há suporte para o seguinte:

    import org.apache.hadoop.fs.Path
    val path =  new Path("dbfs:/Volumes/main/default/test-volume/file.txt")
    val fs = path.getFileSystem(sc.hadoopConfiguration)
    fs.listStatus(path)