Referência de propriedades da tabela Delta
O Delta Lake reserva as propriedades da tabela Delta começando com delta.
. Essas propriedades podem ter significados específicos e afetar os comportamentos quando essas propriedades são definidas.
Observação
Todas as operações que definem ou atualizam as propriedades da tabela entram em conflito com outras operações de gravação concorrente, causando falhas. A Databricks recomenda que o senhor modifique uma propriedade de tabela somente quando não houver operações de gravação concorrente na tabela.
Como as propriedades da tabela e as propriedades SparkSession interagem?
As propriedades da tabela Delta são definidas por tabela. Se uma propriedade for definida em uma tabela, essa é a configuração seguida por default.
Algumas propriedades da tabela têm configurações SparkSession associadas que sempre têm precedência sobre as propriedades da tabela. Alguns exemplos incluem as configurações spark.databricks.delta.autoCompact.enabled
e spark.databricks.delta.optimizeWrite.enabled
, que ativam a compactação automática e as gravações otimizadas no nível SparkSession em vez do nível da tabela. Databricks recomenda o uso de configurações com escopo de tabela para a maioria das cargas de trabalho.
Para cada propriedade da tabela Delta, você pode definir um valor default para novas tabelas usando uma configuração SparkSession, substituindo o default integrado . Essa configuração afeta apenas as novas tabelas e não substitui nem substitui as propriedades definidas nas tabelas existentes. O prefixo utilizado na SparkSession é diferente das configurações utilizadas nas propriedades da tabela, conforme tabela a seguir:
Delta Lake conf |
SparkSession conf |
---|---|
|
|
Por exemplo, para definir a propriedade delta.appendOnly = true
para todas as novas tabelas Delta Lake criadas em uma sessão, defina o seguinte:
SET spark.databricks.delta.properties.defaults.appendOnly = true
Para modificar as propriedades de tabelas existentes, use SET TBLPROPERTIES.
Propriedades da tabela Delta
As propriedades disponíveis da tabela Delta incluem o seguinte:
Propriedade |
---|
Consulte Referência de propriedades da tabelaDelta . Tipo de dados: default: |
Consulte Compactação automática para Delta Lake em Databricks. Tipo de dados: default: (nenhum) |
Consulte Gravações otimizadas para Delta Lake em Databricks. Tipo de dados: default: (nenhum) |
Consulte gerenciar estatísticas em nível de coluna em pontos de verificação. Tipo de dados: default: |
Consulte gerenciar estatísticas em nível de coluna em pontos de verificação. Tipo de dados: default: (nenhum) |
Consulte Compatibilidade para tabelas com clusterslíquidos. Tipo de dados: default: |
Se o mapeamento de coluna está ativado para colunas da tabela Delta e as colunas Parquet correspondentes que usam nomes diferentes. Consulte Renomear e eliminar colunas com o mapeamento de colunas do Delta Lake. Observação: ativar Tipo de dados: default: |
O número de colunas para Delta Lake coletar estatísticas sobre salto de dados. Um valor Consulte Ignoração de dados para Delta Lake. Tipo de dados: default: |
Uma lista separada por vírgulas de nomes de colunas nas quais o Delta Lake coleta estatísticas para aprimorar a funcionalidade de salto de dados. Esta propriedade tem precedência sobre Consulte Ignoração de dados para Delta Lake. Tipo de dados: default: (nenhum) |
A duração mais curta para o Delta Lake manter arquivos de dados excluídos logicamente antes de excluí-los fisicamente. Isso evita falhas em leitores obsoletos após compactações ou substituições de partições. Este valor deve ser grande o suficiente para garantir que:
Consulte Configurar retenção de dados para queryviagem do tempo. Tipo de dados: default: |
Consulte Habilitar feed de dados alterados. Tipo de dados: default: |
Consulte O que são vetores de exclusão?. Tipo de dados: default: Depende das configurações de administração do site workspace e da versão do site Databricks Runtime. Consulte Vetores de exclusão de habilitação automática |
O grau em que uma transação deve ser isolada de modificações feitas por transações concorrentes. Os valores válidos são Consulte níveis de isolamento e conflitos de gravação em Databricks. Tipo de dados: default: |
Por quanto tempo a história de uma tabela Delta é mantida. As operações Cada vez que um ponto de verificação é gravado, o Delta Lake limpa automaticamente as entradas logs anteriores ao intervalo de retenção. Se você definir essa propriedade com um valor grande o suficiente, muitas entradas logs serão retidas. Isso não deve afetar o desempenho, pois as operações nos logs são de tempo constante. As operações na história são paralelas, mas se tornarão mais caras à medida que o tamanho logs aumentar. Consulte Configurar retenção de dados para queryviagem do tempo. Tipo de dados: default: |
A versão mínima necessária do leitor de protocolo para um leitor que permite ler a partir desta tabela Delta. A Databricks não recomenda a configuração manual dessa propriedade. Consulte Como o Databricks gerencia a compatibilidade de recursos do Delta Lake?. Tipo de dados: default: |
A versão de gravador de protocolo mínima necessária para um gravador que permite gravar nesta tabela Delta. A Databricks não recomenda a configuração manual dessa propriedade. Consulte Como o Databricks gerencia a compatibilidade de recursos do Delta Lake?. Tipo de dados: default: |
Tipo de dados: default: |
Quando Tipo de dados: default: |
A duração mais curta dentro da qual o novo Snapshot reterá identificadores de transação (por exemplo, Tipo de dados: default: (nenhum) |
O tamanho do arquivo de destino em bytes ou unidades superiores para ajuste de arquivo. Por exemplo, Consulte Configurar o Delta Lake para controlar o tamanho do arquivo de dados. Tipo de dados: default: (nenhum) |
Consulte Configurar o Delta Lake para controlar o tamanho do arquivo de dados. Tipo de dados: default: (nenhum) |