Trabalhar com o histórico da tabela

Para tabelas Apache Iceberg e Delta Lake, cada operação que modifica uma tabela cria uma nova versão da tabela. Use a história da informação para auditar operações, reverter uma tabela ou consultar uma tabela em um ponto específico no tempo usando a viagem do tempo.

nota

O Databricks não recomenda o uso do histórico de tabelas como uma solução de backup de longo prazo para arquivamento de dados. Use apenas os últimos sete dias para operações de viagem do tempo, a menos que você tenha definido as configurações de retenção de dados e de log para um valor maior.

Recuperar história de uma tabela

Você pode recuperar informações, incluindo as operações, o usuário e o carimbo de data/hora de cada gravação em uma tabela, por meio da execução do comando DESCRIBE HISTORY. As operações são retornadas em ordem cronológica inversa.

A retenção do histórico da tabela é determinada pela configuração da tabela logRetentionDuration, que é de 30 dias por padrão.

nota

A viagem do tempo e o histórico da tabela são controlados por diferentes limites de retenção. See viagem do tempo.

SQL
DESCRIBE HISTORY table_name       -- get the full history of the table

DESCRIBE HISTORY table_name LIMIT 1  -- get the last operation only

Para obter detalhes de sintaxe do Spark SQL, consulte DESCRIBE HISTORY.

Para detalhes de sintaxe de Scala, Java e Python, consulte a documentação da API do Delta Lake.

Catalog Explorer mostra a história da tabela visualmente na tab **History**.

Esquema de história

A saída da operação history tem as seguintes colunas.

Coluna	Tipo	Descrição
version	`long`	A versão da tabela gerada pela operação.
carimbo de data/hora	`timestamp`	Quando essa versão foi confirmada.
userId	`string`	A ID do usuário que executou a operação.
userName	`string`	O nome do usuário que executou a operação.
operation	`string`	O nome da operação.
operationParameters	`map`	Os parâmetros da operação (por exemplo, predicados.) Para operações `OPTIMIZE`, esses parâmetros identificam o tipo de operação. Consulte Identifique o tipo de operação `OPTIMIZE`.
Job	`struct`	Os detalhes do LakeFlow Job que executou a operação. É populado apenas para commits gerados por um LakeFlow Job. Caso contrário, `null`.
notebook	`struct`	Os detalhes do Notebook Databricks a partir do qual a execução da operação foi realizada. É preenchido apenas para commits escritos de um Notebook Databricks. Caso contrário, `null`.
clusterId	`string`	O ID do cluster no qual a operação foi executada.
readVersion	`long`	A versão da tabela que foi lida para realizar a operação de escrita.
isolationLevel	`string`	O nível de isolamento usado para esta operação.
isBlindAppend	`boolean`	Se essa operação anexou dados.
operationMetrics	`map`	As métricas da operação (por exemplo, número de linhas e arquivos modificados.)
userMetadata	`string`	Os metadados de commit definidos pelo usuário, se foram especificados.

Coluna	Tipo	Descrição
version	`long`	A versão da tabela gerada pela operação.
carimbo de data/hora	`timestamp`	Quando essa versão foi confirmada.
userId	`string`	A ID do usuário que executou a operação.
userName	`string`	O nome do usuário que executou a operação.
operation	`string`	O nome da operação.
operationParameters	`map`	Os parâmetros da operação (por exemplo, predicados.) Para operações `OPTIMIZE`, esses parâmetros identificam o tipo de operação. Consulte Identifique o tipo de operação `OPTIMIZE`.
Job	`struct`	Os detalhes do LakeFlow Job que executou a operação. É populado apenas para commits gerados por um LakeFlow Job. Caso contrário, `null`.
notebook	`struct`	Os detalhes do Notebook Databricks a partir do qual a execução da operação foi realizada. É preenchido apenas para commits escritos de um Notebook Databricks. Caso contrário, `null`.
clusterId	`string`	O ID do cluster no qual a operação foi executada.
readVersion	`long`	A versão da tabela que foi lida para realizar a operação de escrita.
isolationLevel	`string`	O nível de isolamento usado para esta operação.
isBlindAppend	`boolean`	Se essa operação anexou dados.
operationMetrics	`map`	As métricas da operação (por exemplo, número de linhas e arquivos modificados.)
userMetadata	`string`	Os metadados de commit definidos pelo usuário, se foram especificados.

Text
+-------+-------------------+------+--------+---------+--------------------+----+--------+---------+-----------+-----------------+-------------+--------------------+
|version|          timestamp|userId|userName|operation| operationParameters| job|notebook|clusterId|readVersion|   isolationLevel|isBlindAppend|    operationMetrics|
+-------+-------------------+------+--------+---------+--------------------+----+--------+---------+-----------+-----------------+-------------+--------------------+
|      5|2019-07-29 14:07:47|   ###|     ###|   DELETE|[predicate -> ["(...|null|     ###|      ###|          4|WriteSerializable|        false|[numTotalRows -> ...|
|      4|2019-07-29 14:07:41|   ###|     ###|   UPDATE|[predicate -> (id...|null|     ###|      ###|          3|WriteSerializable|        false|[numTotalRows -> ...|
|      3|2019-07-29 14:07:29|   ###|     ###|   DELETE|[predicate -> ["(...|null|     ###|      ###|          2|WriteSerializable|        false|[numTotalRows -> ...|
|      2|2019-07-29 14:06:56|   ###|     ###|   UPDATE|[predicate -> (id...|null|     ###|      ###|          1|WriteSerializable|        false|[numTotalRows -> ...|
|      1|2019-07-29 14:04:31|   ###|     ###|   DELETE|[predicate -> ["(...|null|     ###|      ###|          0|WriteSerializable|        false|[numTotalRows -> ...|
|      0|2019-07-29 14:01:40|   ###|     ###|    WRITE|[mode -> ErrorIfE...|null|     ###|      ###|       null|WriteSerializable|         true|[numFiles -> 2, n...|
+-------+-------------------+------+--------+---------+--------------------+----+--------+---------+-----------+-----------------+-------------+--------------------+

nota

Se você gravar em uma tabela usando os seguintes métodos, algumas colunas não estarão disponíveis:
As colunas adicionadas no futuro serão sempre adicionadas após a última coluna.

Compreendendo `partitionBy` em parâmetros de operação

O campo partitionBy na história da tabela só é significativo para operações CREATE e OVERWRITE que definem ou alteram o esquema de partição de uma tabela.

Para operações de acréscimo a tabelas existentes (APPEND, INSERT, UPDATE, DELETE, MERGE), este campo pode mostrar um array vazio [] ou colunas de partição, dependendo do método de gravação utilizado (.save() vs .saveAsTable()).

Essa inconsistência é um comportamento esperado e não afeta como os dados são gravados nas partições. Não se deve usá-lo para validar operações de anexação.

Exemplo

Considere uma tabela particionada pela coluna date. Ao criar a tabela, partitionBy é preenchido:

Python
df.write.format("delta") \
  .partitionBy("date") \
  .saveAsTable("sales_data")

A operações CREATE no história mostra:

Text
operationParameters: {
  "mode": "ErrorIfExists",
  "partitionBy": "[\"date\"]"
}

Quando você anexa dados a esta tabela, partitionBy mostra um array vazio:

Python
new_df.write.format("delta") \
  .mode("append") \
  .saveAsTable("sales_data")

A operação ANEXAR mostra:

Text
operationParameters: {
  "mode": "Append",
  "partitionBy": "[]"
}

O valor partitionBy vazio é esperado. Os dados ainda são gravados nas partições corretas com base no esquema de partição existente da tabela. Observe que .save() para um caminho pode mostrar colunas de partição neste campo, mas essa diferença é um detalhe de implementação e não afeta o comportamento de gravação.

Métricas de operações

A operação history retorna uma coleção de métricas de operações no mapa de colunas operationMetrics .

As tabelas a seguir listam as principais definições do mapa por operação.