Pular para o conteúdo principal

Suporte de arquivamento no Databricks

info

Visualização

Esse recurso está em Public Preview para Databricks Runtime 13.3 LTS e acima.

O suporte a arquivamento no Databricks permite que você use políticas de ciclo de vida baseadas em cloudno armazenamento de objetos cloud que contém tabelas Delta . Habilitar o suporte a arquivamento em uma tabela do Delta Lake instrui o Databricks a ignorar arquivos mais antigos que o período especificado na tabela.

Requisitos

Por que você deve ativar o suporte de arquivamento?

O suporte de arquivamento só permite consultas que podem ser respondidas corretamente sem tocar nos arquivos arquivados. Essas consultas incluem aquelas que:

  • Consulte somente metadados.
  • Tenha filtros que não exijam a digitalização de nenhum arquivo arquivado.

Todas as consultas que exigem dados em arquivos arquivados falham.

importante

O Databricks nunca retorna resultados para consultas que exigem arquivos arquivados para retornar o resultado correto.

Habilitar o suporte a arquivamento para uma tabela no Databricks não cria nem altera as políticas de ciclo de vida definidas para o seu armazenamento de objetos cloud . Consulte Alterar a regra de transição do gerenciamento do ciclo de vida.

Sem o suporte de arquivamento, as operações com tabelas Delta podem ser interrompidas porque os arquivos de dados ou de log de transações foram movidos para locais arquivados e não estão disponíveis quando consultados. O suporte de arquivamento introduz otimizações para evitar a consulta de dados arquivados quando possível. Ele também adiciona uma nova sintaxe para identificar arquivos que devem ser restaurados do armazenamento arquivístico para concluir consultas.

Consultas otimizadas para dados arquivados

O suporte a arquivos no Databricks otimiza as seguintes consultas em tabelas Delta.

Consulta

Novo comportamento

SELECT * FROM <table_name> LIMIT <limit> [WHERE <partition_predicate>]

Ignore automaticamente os arquivos arquivados e retorne os resultados dos dados em um nível de armazenamento não arquivado.

Delta Lake comando de manutenção: OPTIMIZE, ZORDER, ANALYZE, PURGE

Ignorar automaticamente os arquivos arquivados e executar a manutenção no restante da tabela.

Declarações DDL e DML que substituem dados ou excluem dados, incluindo as seguintes: REPLACE TABLE, INSERT OVERWRITE, TRUNCATE TABLE, DROP TABLE

Marcar como excluídas as entradas do log de transações dos arquivos de dados arquivados de destino.

FSCK REPAIR TABLE

Ignore os arquivos arquivados e verifique somente os arquivos que não atingiram a política de ciclo de vida.

Mensagens antecipadas de falha e erro

Para consultas que precisam examinar arquivos arquivados para gerar resultados corretos, a configuração do suporte de arquivamento para o Delta Lake garante o seguinte:

  • As consultas falham antecipadamente se tentarem acessar arquivos arquivados, reduzindo o desperdício compute e permitindo que os usuários adaptem e reexecutem as consultas rapidamente.
  • As mensagens de erro informam aos usuários que uma consulta falhou porque a consulta tentou acessar os arquivos arquivados.

Os usuários podem gerar um relatório de arquivos que devem ser restaurados usando a sintaxe SHOW ARCHIVED FILES. Consulte Mostrar arquivos arquivados.

importante

Se você receber o erro Not enough files to satisfy LIMIT, sua tabela não tem linhas de dados suficientes em arquivos não arquivados para satisfazer o número de registros especificado por LIMIT. Abaixe a cláusula LIMIT para encontrar linhas não arquivadas suficientes para atender ao LIMIT especificado. Consulte as limitações.

Ativar suporte de arquivamento

Você habilita o suporte de arquivamento para tabelas Delta especificando manualmente o intervalo de arquivamento configurado na política de gerenciamento do ciclo de vida cloud subjacente.

SQL
ALTER TABLE <table_name> SET TBLPROPERTIES(delta.timeUntilArchived = 'X days');

Definir um tempo timeUntilArchived instrui o Databricks a ignorar arquivos em sua tabela Delta Lake que sejam mais antigos do que o período de tempo especificado. Essa configuração é independente das políticas de ciclo de vida da sua account cloud . Alterações em uma não afetam a outra. Se você atualizar a política de ciclo de vida em sua account cloud , também deverá atualizar a configuração de arquivamento em sua tabela Delta Lake . Consulte Alterar a regra de transição do gerenciamento do ciclo de vida.

Se você habilitar essa configuração sem políticas de ciclo de vida definidas para seu armazenamento de objetos cloud , o suporte a arquivamento permitirá que as consultas sejam bem-sucedidas e os resultados incluirão dados dos arquivos marcados para arquivamento. Veja Como o Databricks realiza a amostragem para dados restaurados?

atenção

Sua política de ciclo de vida cloud não deve arquivar o log de transações Delta (diretório _delta_log/ ). Consulte as limitações.

importante

O suporte de arquivamento depende inteiramente de ambientes compatíveis com Databricks compute e só funciona para tabelas Delta. A configuração do suporte a arquivamento não altera o comportamento, a compatibilidade ou o suporte em clientes OSS Delta Lake ou Databricks Runtime 12.2 LTS e abaixo.

Mostrar arquivos arquivados

Para identificar arquivos que devem ser restaurados para concluir uma determinada consulta, use SHOW ARCHIVED FILES.

SQL
SHOW ARCHIVED FILES FOR table_name [ WHERE predicate ];

Essa operação retorna URIs para arquivos arquivados como Spark DataFrame. Restaure os arquivos arquivados necessários seguindo as instruções documentadas do seu provedor de armazenamento de objetos. Para obter informações sobre como o site Databricks verifica os dados restaurados, consulte How does Databricks sample for restored data?

nota

Durante essas operações, o site Delta Lake só tem acesso às estatísticas de dados contidas na transação log. Em default, estas são as seguintes estatísticas coletadas nas primeiras 32 colunas da tabela:

  • Valores mínimos
  • Valores máximos
  • Contagens nulas
  • Número total de registros

Os arquivos retornados incluem todos os arquivos arquivados que devem ser lidos para determinar se os registros que cumprem um predicado existem ou não no arquivo. Databricks recomenda o fornecimento de predicados que incluam campos nos quais os dados são particionados, Z-ordered, ou agrupados para reduzir o número de arquivos que devem ser restaurados.

Atualizar ou excluir dados arquivados

As operações falharão se o senhor executar as operações MERGE, UPDATE, ou DELETE que afetam os dados em arquivos arquivados. O senhor deve restaurar os dados em uma camada de armazenamento que ofereça suporte à recuperação rápida para executar essas operações. Use SHOW ARCHIVED FILES para determinar os arquivos que você deve restaurar.

Como a Databricks faz a amostragem dos dados restaurados?

Quando o Databricks prepara uma varredura em uma tabela com suporte a arquivamento ativado, ele coleta amostras de arquivos mais antigos do que o período de retenção especificado pela consulta para determinar se os arquivos foram restaurados ou não. Se os resultados indicarem que os arquivos amostrados, presumivelmente arquivados, foram restaurados, o Databricks assume que todos os arquivos da consulta foram restaurados e a consulta é processada. Os resultados incluem dados dos arquivos marcados para arquivamento.

A amostragem pode não se aplicar a todas as consultas; consulte Limitações.

Limitações

Aplicam-se as seguintes limitações:

  • O suporte para arquivamento aplica-se somente a arquivos de dados. Se algum arquivo no log de transações Delta (diretório _delta_log/ ) for movido para uma camada de armazenamento arquivada, a tabela se tornará completamente inacessível e todas as consultas à tabela falharão. Você deve configurar sua política de ciclo de vida cloud para que o caminho _delta_log/ não seja incluído no arquivamento. Veja exemplos de configurações do ciclo de vida do S3.
  • Não há suporte para políticas de gerenciamento do ciclo de vida que não sejam baseadas no tempo de criação do arquivo. Isso inclui políticas baseadas em tempo de acesso e políticas baseadas em tags.
  • Você não pode usar DROP COLUMN em uma tabela com arquivos arquivados.
  • REORG TABLE APPLY PURGE faz a melhor tentativa, mas só funciona na exclusão de arquivos vetoriais e arquivos de dados referenciados que não estão arquivados. PURGE não pode excluir arquivos vetoriais de exclusão arquivados.
  • Estender a regra de transição do gerenciamento do ciclo de vida resulta em um comportamento inesperado. Consulte Estender a regra de transição do gerenciamento do ciclo de vida.
  • LIMIT Consultas em tabelas com suporte a arquivamento ativado não acionam a amostragem de dados restaurados. Se os dados de uma tabela forem restaurados, a maioria das consultas terá sucesso ao consultar os dados restaurados, mas uma consulta LIMIT retornará um erro DELTA_ARCHIVED_FILES_IN_LIMIT . Veja Como o Databricks realiza a amostragem para dados restaurados?

Alterar a regra de transição do gerenciamento do ciclo de vida

Se você alterar o intervalo de tempo para sua regra de transição de gerenciamento do ciclo de vida cloud , você deve atualizar a propriedade delta.timeUntilArchived para o mesmo intervalo.

Se o intervalo de tempo antes do arquivamento for reduzido (menos tempo desde a criação do arquivo), o suporte de arquivamento para a tabela Delta continuará funcionando normalmente depois que a propriedade da tabela for atualizada.

Estenda a regra de transição do gerenciamento do ciclo de vida

Se o intervalo de tempo antes do arquivamento for estendido (para adicionar mais tempo antes que o arquivamento seja acionado), atualizar a propriedade delta.timeUntilArchived para o novo valor pode causar erros. Os provedores de nuvem não restauram automaticamente os arquivos do armazenamento arquivado quando as políticas de retenção de dados são alteradas. Isso significa que os arquivos anteriormente qualificados para arquivamento, mas agora não considerados elegíveis para arquivamento, ainda estão arquivados.

importante

Para evitar erros, nunca defina a propriedade delta.timeUntilArchived com um valor maior que a idade real dos dados arquivados mais recentemente.

Considere um cenário em que o intervalo de tempo para arquivamento é alterado de 60 dias para 90 dias:

  1. Todos os registros entre 60 e 90 dias são arquivados quando a política é alterada.
  2. Por 30 dias, nenhum arquivo novo é arquivado (os arquivos não arquivados mais antigos têm 60 dias quando a política é estendida).
  3. Após 30 dias, a política de ciclo de vida descreve corretamente todos os dados arquivados.

A configuração delta.timeUntilArchived rastreia o intervalo de tempo definido em relação ao tempo de criação do arquivo registrado pelo log de transações Delta. Ele não tem conhecimento explícito da política subjacente. Durante o período de atraso entre o limite de arquivamento antigo e o novo limite de arquivamento, o senhor pode adotar uma das seguintes abordagens para evitar a consulta de arquivos arquivados:

  1. O senhor pode deixar a configuração delta.timeUntilArchived com o limite antigo até que tenha passado tempo suficiente para que todos os arquivos sejam arquivados.

    • Seguindo o exemplo acima, todos os dias, durante os primeiros 30 dias, o valor de outro dia de dados seria considerado arquivado pela Databricks, mas ainda precisa ser arquivado pelo provedor de nuvem. Isso não resulta em um erro, mas ignora alguns arquivos de dados que poderiam ser consultados.
    • Após 30 dias, atualize delta.timeUntilArchived para 90 days.
  2. Você pode atualizar a configuração delta.timeUntilArchived todos os dias para refletir o intervalo atual durante o período de atraso.

    • Embora a política de nuvem esteja definida para 90 dias, a idade real dos dados arquivados muda em tempo real. Por exemplo, após 7 dias, definir delta.timeUntilArchived como 67 days reflete com precisão a idade de todos os arquivos de dados arquivados.
    • Essa abordagem só é necessária se você precisar acessar todos os dados em camadas ativas.
nota

Atualizar o valor de delta.timeUntilArchived não altera quais dados são arquivados. Ele apenas altera os dados que o Databricks trata como se estivessem arquivados.