gerenciar vs. volumes externos
Este artigo discute as diferenças entre gerenciar volumes e volumes externos e os motivos pelos quais o senhor pode optar por usar volumes externos. Databricks recomenda gerenciar volumes como a solução mais simples para armazenar e gerenciar o acesso a dados não tabulares.
Para obter mais orientações sobre como usar Unity Catalog para configurar o acesso ao armazenamento de objetos na nuvem, consulte Conectar-se ao armazenamento de objetos na nuvem e ao serviço usando Unity Catalog.
Diferenças de comportamento entre volumes gerenciar e externos
Gerenciar e volumes externos proporcionam experiências quase idênticas ao usar as ferramentas Databricks, UIs e APIs. A seguir estão as diferenças entre esses tipos de volume.
gerenciar volumes proporciona uma experiência de armazenamento totalmente gerenciada. Isso significa o seguinte:
- Todas as interações com arquivos em volumes gerenciados devem passar por Unity Catalog.
- A nomeação do diretório e a disposição dos dados são gerenciadas por Unity Catalog. Os nomes de diretório incluem hashes para evitar conflitos na conta subjacente de armazenamento de objetos na nuvem.
- Quando o senhor exclui um volume gerenciar, os arquivos armazenados nesse volume são mantidos por 7 dias. Após 7 dias, os dados são marcados para serem excluídos de sua nuvem tenant durante as operações de manutenção regulares.
Os volumes externos trazem a governança de dados para o armazenamento de objetos na nuvem. Isso significa o seguinte:
- O senhor pode usar URIs de nuvem no Databricks ou em sistemas externos para interagir com arquivos em volumes externos.
- Todos os diretórios criados em um volume externo ou upload de arquivos são relativos ao
LOCATION
especificado na criação. - Quando o senhor solta um volume externo, remove o volume do Unity Catalog, mas os dados subjacentes permanecem inalterados no local externo.
Por que usar volumes externos?
Os volumes externos permitem que você adicione a governança de dados Unity Catalog aos diretórios de armazenamento de objetos cloud existentes. Alguns casos de uso para volumes externos incluem o seguinte:
- Adicionar governança aos arquivos de dados sem migração.
- Arquivos de controle produzidos por outros sistemas que devem ser ingeridos ou acessados pela Databricks.
- Governar os dados produzidos pela Databricks que devem ser acessados diretamente do armazenamento de objetos na nuvem por outros sistemas.
A Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além da Databricks. Unity Catalog não controla as leituras e gravações realizadas diretamente no armazenamento de objetos na nuvem a partir de sistemas externos, portanto, o senhor deve configurar políticas e credenciais adicionais em sua nuvem account para garantir que as políticas de governança de dados sejam respeitadas fora do site Databricks.