gerenciar vs. volumes externos

Este artigo discute as diferenças entre gerenciar volumes e volumes externos e os motivos pelos quais o senhor pode optar por usar volumes externos. Databricks recomenda gerenciar volumes como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.

Para obter mais orientações sobre como usar Unity Catalog para configurar o acesso ao armazenamento de objetos cloud, consulte Conectar-se ao armazenamento de objetos cloud e ao serviço usando Unity Catalog.

Diferenças de comportamento entre volumes gerenciais e externos

Gerenciar e volumes externos proporcionam experiências quase idênticas ao usar as ferramentas Databricks, UIs e APIs. Veja a seguir as diferenças entre esses tipos de volume.

gerenciar volumes proporciona uma experiência de armazenamento totalmente gerenciada. Isso significa o seguinte:

  • Todas as interações com arquivos em volumes gerenciados devem passar por Unity Catalog.

  • A nomeação do diretório e a disposição dos dados são gerenciadas por Unity Catalog. Os nomes dos diretórios incluem hashes para evitar conflitos na conta subjacente de armazenamento de objetos cloud.

  • Quando o senhor elimina um volume gerenciado, o site Databricks exclui os dados subjacentes em 30 dias.

Os volumes externos trazem governança de dados para o armazenamento de objetos cloud. Isso significa o seguinte:

  • O senhor pode usar cloud URIs em Databricks ou sistemas externos para interagir com arquivos em volumes externos.

  • Todos os diretórios criados em um volume externo ou upload de arquivos são relativos ao LOCATION especificado na criação.

  • Ao soltar um volume externo, o volume é removido do Unity Catalog, mas os dados subjacentes permanecem inalterados no local externo.

Por que usar volumes externos?

Os volumes externos permitem que você adicione a governança de dados Unity Catalog aos diretórios de armazenamento de objetos cloud existentes. Alguns casos de uso para volumes externos incluem o seguinte:

  • Adição de governança a arquivos de dados sem migração.

  • Arquivos de controle produzidos por outros sistemas que devem ser ingeridos ou acessados pela Databricks.

  • Dados de controle produzidos pelo Databricks que devem ser acessados diretamente do armazenamento de objetos do cloud por outros sistemas.

A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos cloud a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em seu cloud account para garantir que as políticas de governança de dados sejam respeitadas fora do Databricks.