gerenciar vs. volumes externos
Este artigo discute as diferenças entre gerenciar volumes e volumes externos e os motivos pelos quais o senhor pode optar por usar volumes externos. Databricks recomenda gerenciar volumes como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.
Para obter mais orientações sobre como usar Unity Catalog para configurar o acesso ao armazenamento de objetos cloud, consulte Conectar-se ao armazenamento de objetos cloud e ao serviço usando Unity Catalog.
Diferenças de comportamento entre volumes gerenciais e externos
Gerenciar e volumes externos proporcionam experiências quase idênticas ao usar as ferramentas Databricks, UIs e APIs. Veja a seguir as diferenças entre esses tipos de volume.
gerenciar volumes proporciona uma experiência de armazenamento totalmente gerenciada. Isso significa o seguinte:
Todas as interações com arquivos em volumes gerenciados devem passar por Unity Catalog.
A nomeação do diretório e a disposição dos dados são gerenciadas por Unity Catalog. Os nomes dos diretórios incluem hashes para evitar conflitos na conta subjacente de armazenamento de objetos cloud.
Quando o senhor elimina um volume gerenciado, o site Databricks exclui os dados subjacentes em 30 dias.
Os volumes externos trazem governança de dados para o armazenamento de objetos cloud. Isso significa o seguinte:
O senhor pode usar cloud URIs em Databricks ou sistemas externos para interagir com arquivos em volumes externos.
Todos os diretórios criados em um volume externo ou upload de arquivos são relativos ao
LOCATION
especificado na criação.Ao soltar um volume externo, o volume é removido do Unity Catalog, mas os dados subjacentes permanecem inalterados no local externo.
Por que usar volumes externos?
Os volumes externos permitem que você adicione a governança de dados Unity Catalog aos diretórios de armazenamento de objetos cloud existentes. Alguns casos de uso para volumes externos incluem o seguinte:
Adição de governança a arquivos de dados sem migração.
Arquivos de controle produzidos por outros sistemas que devem ser ingeridos ou acessados pela Databricks.
Dados de controle produzidos pelo Databricks que devem ser acessados diretamente do armazenamento de objetos do cloud por outros sistemas.
A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos cloud a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em seu cloud account para garantir que as políticas de governança de dados sejam respeitadas fora do Databricks.