Referência das propriedades da tabela
Delta Lake e Apache Iceberg usam propriedades de tabela para controlar o comportamento da tabela e os recursos. Essas propriedades podem ter significados específicos e afetar comportamentos quando definidas.
Todas as operações que definem ou atualizam as propriedades da tabela entram em conflito com outras operações de gravação concorrente, causando falhas. Databricks recomenda que o senhor modifique uma propriedade da tabela somente quando não houver operações de gravação concorrente na tabela.
Modificar propriedades da tabela
Para modificar as propriedades das tabelas existentes, use SET TBLPROPERTIES.
Formatos Delta e Iceberg
As tabelas do Delta Lake e do Apache Iceberg compartilham os mesmos nomes de propriedades, mas exigem prefixos diferentes:
- Tabelas Delta : Use o prefixo
delta. - TabelasIceberg : Use o prefixo
iceberg.
Por exemplo:
- Para habilitar vetores de exclusão em uma tabela Delta:
delta.enableDeletionVectors - Para habilitar vetores de exclusão em uma tabela Iceberg:
iceberg.enableDeletionVectors
Propriedades da tabela e propriedades da SparkSession
Cada tabela possui suas próprias propriedades que controlam seu comportamento. Algumas configurações do SparkSession sempre substituem as propriedades da tabela. Por exemplo, autoCompact.enabled e optimizeWrite.enabled habilitam a compactação automática e as gravações otimizadas no nível da SparkSession. A Databricks recomenda o uso de configurações com escopo de tabela para a maioria das cargas de trabalho.
Você pode definir valores default para novas tabelas usando as configurações SparkSession . Essas configurações padrão se aplicam apenas a novas tabelas e não afetam as propriedades de tabelas existentes. As configurações do SparkSession usam um prefixo diferente das propriedades da tabela, conforme mostrado na tabela a seguir:
Propriedade da tabela | Configuração do SparkSession |
|---|---|
|
|
Por exemplo, para definir a propriedade appendOnly = true para todas as novas tabelas criadas em uma sessão, defina o seguinte:
-- For Delta tables
SET spark.databricks.delta.properties.defaults.appendOnly = true
-- For Iceberg tables
SET spark.databricks.iceberg.properties.defaults.appendOnly = true
Propriedades da tabela
As seguintes propriedades de tabela estão disponíveis para as tabelas Delta Lake e Apache Iceberg. Use o prefixo delta. para tabelas Delta e o prefixo iceberg. para tabelas Iceberg.
Propriedade | Descrição |
|---|---|
|
Veja Escritas otimizadas. Tipo de dados: padrão: (nenhum) |
| Número de colunas para coletar estatísticas sobre a omissão de dados. O valor Consulte Ignorando dados. Tipo de dados: padrão: |
| Uma lista de nomes de colunas separados por vírgulas para coletar estatísticas e aprimorar a funcionalidade de omissão de dados. Esta propriedade tem precedência sobre Consulte Ignorando dados. Tipo de dados: padrão: (nenhum) |
| O menor tempo necessário para manter arquivos de dados logicamente excluídos antes de excluí-los fisicamente. Isso evita falhas em leitores obsoletos após compactações ou sobrescritas de partições. Defina esse valor como suficientemente grande para garantir que:
Consulte Configurar a retenção de dados para consultas de viagem do tempo. Tipo de dados: padrão: |
|
Consulte Vetores de exclusão no Databricks e Ativar vetores de exclusão. Tipo de dados: Padrão: Depende das configurações de administração workspace e da versão Databricks Runtime . Consulte Ativar vetores de exclusão automaticamente. |
| Por quanto tempo devo manter a história em uma mesa? As operações O Databricks limpa automaticamente as entradas de log mais antigas que o intervalo de retenção sempre que um ponto de verificação é gravado. Definir essa propriedade com um valor alto retém muitas entradas de log. Isso não afeta o desempenho porque as operações no log têm tempo constante. As operações em logs são paralelas, mas tornam-se mais caras à medida que o tamanho log aumenta. Consulte Configurar a retenção de dados para consultas de viagem do tempo. Tipo de dados: padrão: |
| A versão mínima necessária do leitor de protocolo para ler esta tabela. A Databricks não recomenda a configuração manual dessa propriedade. Consulte Delta Lake recurso compatibilidade e protocolos. Tipo de dados: padrão: |
| A versão mínima necessária do gravador de protocolo para escrever nesta tabela. A Databricks não recomenda a configuração manual dessa propriedade. Consulte Delta Lake recurso compatibilidade e protocolos. Tipo de dados: padrão: |
| Versão em formato de tabela Iceberg. A Databricks não recomenda a configuração manual dessa propriedade. Consulte Usar recurso Apache Iceberg v3. Tipo de dados: padrão: |
|
Tipo de dados: padrão: |
| O tamanho de destino do arquivo em bytes ou unidades superiores para ajuste de arquivos. Por exemplo, Consulte Tamanho do arquivo de dados de controle. Tipo de dados: padrão: (nenhum) |
| O codec de compressão para uma tabela. Valores válidos: Esta propriedade garante que todas as gravações futuras na tabela usem o codec escolhido, substituindo o default do cluster ou da sessão ( Tipo de dados: padrão: |
|
Tipo de dados: padrão: |
| Combina automaticamente arquivos pequenos dentro de partições de tabela para reduzir problemas com arquivos pequenos. Aceita Veja Compactação automática. Tipo de dados: padrão: (nenhum) |
|
Tipo de dados: padrão: |
|
Tipo de dados: padrão: |
|
Consulte Compatibilidade para tabelas com clustering líquido. Tipo de dados: padrão: |
| Permite o mapeamento de colunas para colunas de tabela e as colunas Parquet correspondentes que usam nomes diferentes. Consulte Renomear e soltar colunas com o mapeamento de colunas do Delta Lake. Nota: Habilitar Tipo de dados: padrão: |
|
Tipo de dados: padrão: |
|
Consulte Habilitar o feed de dados de alteração. Tipo de dados: padrão: |
|
Consulte Ampliação de tipos. Tipo de dados: padrão: |
| O grau em que uma transação deve ser isolada das modificações feitas por transações concorrentes. Os valores válidos são Consulte Níveis de isolamento e conflitos de gravação em Databricks. Tipo de dados: padrão: |
| O número de caracteres a serem gerados para prefixos aleatórios quando Tipo de dados: padrão: |
| A duração mais curta dentro da qual um novo Snapshot retém identificadores de transação (por exemplo, Tipo de dados: padrão: (nenhum) |
|
Consulte Tamanho do arquivo de dados de controle. Tipo de dados: padrão: (nenhum) |