Ciclo de vida do armazenamento de objetos no Unity Catalog
Quando você exclui um objeto seguro do Unity Catalog (via Catalog Explorer, SQL DROP, etc.), o que acontece depende do tipo de objeto e do tipo de armazenamento. Esta página descreve o ciclo de vida do arquivo de dados, o faturamento do armazenamento e as opções de recuperação após a exclusão.
O tipo de armazenamento determina o que acontece com os arquivos de dados
Para tabelas e volumes, o que acontece com os arquivos de dados subjacentes depende se o ativo é gerenciado ou externo. Para saber mais sobre esta distinção, consulte Ativos gerenciados versus ativos externos no Unity Catalog.
-
Tabelas e volumes gerenciados : o Unity Catalog controla o local de armazenamento e o ciclo de vida do arquivo de dados. Os arquivos de dados ficam no local de armazenamento gerenciado definido no nível do metastore, do catálogo ou do esquema. Quando você exclui uma tabela ou volume gerenciado, o Unity Catalog exclui os arquivos de dados subjacentes por meio de um ciclo de vida multifásico. Locações de armazenamento gerenciadas apresentam dois tipos:
- Armazenamento default do Databricks : Armazenamento de objetos que o Databricks provisiona e gerencia em sua account Databricks.
- Armazenamento gerenciado fornecido pelo cliente : Um local de armazenamento em nuvem na sua account de nuvem, configurado no nível do metastore, do catálogo ou do esquema, para o qual a Databricks escreve e gerencia dados.
Ambos os tipos compartilham o mesmo ciclo de vida do arquivo de dados, mas o faturamento e a retenção de arquivos pós-exclusão diferem. Consulte Objetos gerenciados no armazenamento default do Databricks versus armazenamento fornecido pelo cliente.
-
Tabelas e volumes externos : Você controla o local de armazenamento e o ciclo de vida. Quando se exclui uma tabela externa ou um volume, o Unity Catalog remove os metadados do metastore, mas os arquivos de dados permanecem no local de armazenamento em nuvem.
-
Catálogos Estrangeiros e Federados: Os dados residem em outra fonte de dados (como um banco de dados federado por meio da Lakehouse Federation ou um Hive metastore por meio da federação do Hive metastore). Unity Catalog contém apenas os metadados da conexão. Quando se exclui um catálogo externo, o Unity Catalog remove os metadados de conexão. Os dados no sistema de origem permanecem inalterados.
Para outros objetos protegíveis (catálogos, esquemas, views, funções, modelos), a exclusão remove apenas os metadados — não há arquivos de dados associados para o Unity Catalog gerenciar. Excluir um catálogo ou esquema com CASCADE remove as tabelas e os volumes contidos, cada um de acordo com seu próprio comportamento gerenciado ou externo, acima.
Recuperar um objeto excluído
A recuperação de um objeto excluído depende do tipo de objeto.
Tipo de objeto | Recuperação |
|---|---|
Tabelas, visualizações materializadas, tabelas de transmissão | Use UNDROP dentro de 7 dias após a exclusão. Views materializadas e tabelas de transmissão devem ter sido criadas a partir de um pipeline ETL e esse pipeline ainda deve existir. |
Catálogos, esquemas, volumes, views, funções e modelos | Não pode ser recuperado após a exclusão. |
A recuperação é limitada pelo tempo e baseada no melhor esforço. Exclua um objeto somente depois de confirmar que você não precisa mais dos dados. Use a opção RESTRICT (a default) em DROP CATALOG e DROP SCHEMA para evitar a exclusão recursiva acidental de objetos não vazios.
Ciclo de vida dos dados gerenciados após uma exclusão
A exclusão de uma tabela ou volume gerenciado não exclui imediatamente os arquivos de dados do armazenamento em nuvem. Arquivos de dados são retidos durante uma janela de recuperação e excluídos permanentemente depois.
Fase 1: Janela de recuperação
Durante 7 dias após a exclusão, o Unity Catalog retém os dados com exclusão lógica para que o objeto possa ser recuperado. Durante esta janela:
- Use o comando SQL UNDROP para recuperar tabelas, visualizações materializadas e tabelas de transmissão.
- O Unity Catalog mantém os metadados do objeto descartado e a cobrança de armazenamento continua.
Fase 2: Remoção
Quando a janela de recuperação de 7 dias se encerra, o objeto não pode mais ser recuperado. O Unity Catalog exclui permanentemente os arquivos de dados em 48 horas. Para obter detalhes de cobrança de armazenamento em cada fase, consulte Cobrança de armazenamento após uma exclusão.
Objetos gerenciados no armazenamento default do Databricks versus armazenamento fornecido pelo cliente
Objetos gerenciados podem usar dois tipos de armazenamento gerenciado. O ciclo de vida dos dados e o comportamento de purga do Unity Catalog são os mesmos, mas a cobrança e a retenção de arquivos pós-purga diferem.
Tipo de armazenamento | Remoção de arquivo |
|---|---|
Armazenamento default do Databricks (gerenciado pelo Databricks em seu nome) | O Unity Catalog exclui permanentemente os arquivos de dados no prazo de 48 horas após o término da janela de recuperação. |
Armazenamento gerenciado fornecido pelo cliente (um local de armazenamento em cloud que você configurou no metastore, catálogo ou esquema) | O Unity Catalog exclui permanentemente os arquivos de dados em até 48 horas após o término da janela de recuperação. Suas políticas de armazenamento em nuvem (controle de versão de objetos, exclusão reversível, regras de ciclo de vida) podem manter arquivos além deste ponto. Seu provedor de nuvem cobra pelo armazenamento de acordo com essas políticas. |
Para saber mais sobre o armazenamento default do Databricks, consulte Armazenamento default no Databricks. Para configurar o armazenamento gerenciado fornecido pelo cliente, consulte Especifique um local de armazenamento gerenciado no Unity Catalog.
Tabelas externas e volumes externos
Quando você exclui uma tabela externa ou um volume externo, o Unity Catalog remove os metadados do metastore. Os arquivos de dados no armazenamento em cloud não são excluídos. Seu provedor de nuvem continua a cobrar pelo armazenamento de acordo com as políticas do seu bucket.
Para remover os arquivos, exclua-os diretamente do armazenamento em cloud.
Catálogos externos e federados
Um catálogo externo contém metadados que referencia uma fonte de dados externa. Quando se exclui um catálogo externo, o Unity Catalog remove os metadados de conexão. Os dados no sistema de origem permanecem inalterados. A Databricks não fatura o armazenamento no sistema de origem; a cobrança do sistema de origem se aplica.
Cobrança do armazenamento após uma exclusão
A tabela a seguir resume como o Databricks e seu provedor de nuvem cobram pelo armazenamento em cada fase. O Databricks fatura apenas pelo armazenamento default do Databricks e somente durante a janela de recuperação — a cobrança do armazenamento cessa após a janela de recuperação de 7 dias. Para armazenamento gerenciado e armazenamento externo fornecidos pelos clientes, o seu provedor de cloud fatura diretamente.
Tipo de armazenamento | Janela de recuperação | Fase 2 purgar | Após purgar |
|---|---|---|---|
Gerenciado no armazenamento default do Databricks | Databricks faturou | Não faturável ao cliente (o faturamento é interrompido assim que o período de recuperação termina) | Não aplicável |
Gerenciado em armazenamento fornecido pelo cliente | Cobrança do provedor de cloud | Cobrança do provedor de cloud | Provedor de nuvem faturado (regido pelas políticas do seu bucket) |
Tabelas externas e volumes externos | Provedor de cloud cobrado (arquivos não são excluídos) | Cobrança do provedor de cloud | Cobrança do provedor de cloud |
Catálogos externos e federados | Não aplicável | Não aplicável | Não aplicável |
Após excluir um objeto gerenciado no armazenamento fornecido pelo cliente, ainda poderá ver cobranças de armazenamento do seu provedor de cloud. Para reduzir esses encargos, verifique o controle de versão de objetos, a exclusão suave e as políticas de ciclo de vida do seu bucket.
Excluir um objeto do Catalog Explorer
É possível excluir objetos do Unity Catalog do Catalog Explorer na interface do usuário do workspace. O ciclo de vida dos dados descrito neste artigo se aplica quando um objeto é excluído do Catalog Explorer ou quando uma instrução SQL DROP é executada.
- Excluir catálogo: consulte Excluir catálogo.
- Excluir um esquema: veja Gerenciar esquemas.
- Excluir um volume: consulte Excluir um volume.
O que acontece quando você exclui um workspace?
Por padrão, excluir um workspace não exclui automaticamente o catálogo default do Unity Catalog do workspace. Se o catálogo for mantido, suas tabelas e volumes gerenciados permanecem, e a cobrança de armazenamento continua até que o catálogo seja excluído.
O catálogo do workspace deve ser descartado manualmente após a exclusão do workspace. Remova o catálogo de outro workspace atribuído ao mesmo metastore. Consulte Comportamento de Retenção do Catálogo do Workspace.
Para obter detalhes sobre a exclusão de workspace, consulte Excluir um workspace.