Pular para o conteúdo principal

Configure o Delta Lake para controlar o tamanho do arquivo de dados

nota

As recomendações deste artigo não se aplicam às tabelas do Unity Catalog gerenciar. Databricks recomenda usar as tabelas gerenciar Unity Catalog com as configurações default para todas as novas tabelas Delta.

Em Databricks Runtime 13.3 e acima, Databricks recomenda o uso de clustering para Delta disposição da tabela. Consulte Usar clustering líquido para tabelas Delta.

Databricks recomenda o uso da otimização preditiva para executar automaticamente OPTIMIZE e VACUUM nas tabelas do site Delta. Consulte Otimização preditiva para Unity Catalog gerenciar tabelas.

Em Databricks Runtime 10.4 LTS e acima, a compactação automática e as gravações otimizadas estão sempre ativadas para as operações MERGE, UPDATE e DELETE. Você não pode desativar essa funcionalidade.

O Delta Lake fornece opções para configuração manual ou automaticamente do tamanho do arquivo de destino para gravações e para operações OPTIMIZE . O Databricks ajusta automaticamente muitas dessas configurações e habilita recursos que melhoram automaticamente o desempenho da tabela buscando arquivos do tamanho correto.

Para tabelas gerenciadas pelo Unity Catalog, o Databricks ajusta a maioria dessas configurações automaticamente se você estiver usando um SQL warehouse ou Databricks Runtime 11.3 LTS ouacima.

Se estiver fazendo upgrade de uma carga de trabalho do Databricks Runtime 10.4 LTS ou abaixo, consulte Upgrade para compactação automática em segundo plano.

Quando executar OPTIMIZE

A compactação automática e as gravações otimizadas reduzem os problemas de arquivos pequenos, mas não substituem totalmente o OPTIMIZE. Especialmente para tabelas com mais de 1 TB, o site Databricks recomenda a execução do OPTIMIZE em um programador para consolidar ainda mais os arquivos. Databricks não executa automaticamente ZORDER em tabelas, portanto, o senhor deve executar OPTIMIZE com ZORDER para ativar o salto de dados aprimorado. Consulte Data skipping para o Delta Lake.

O que é otimização automática no Databricks?

Às vezes, o termo otimização automática é usado para descrever a funcionalidade controlada pelas configurações delta.autoOptimize.autoCompact e delta.autoOptimize.optimizeWrite. Esse termo foi retirado em favor da descrição de cada configuração individualmente. Consulte Compactação automática para Delta Lake em Databricks e Gravações otimizadas para Delta Lake em Databricks.

Compactação automática para o Delta Lake no Databricks

A compactação automática combina arquivos menores nas partições da tabela Delta para reduzir automaticamente os problemas com arquivos pequenos. A compactação automática acontece após uma gravação bem-sucedida na tabela e é executada de forma sincronizada no cluster que realizou a gravação.A compactação automática compacta apenas arquivos que não foram compactados anteriormente.

O senhor pode controlar o tamanho do arquivo de saída definindo a configuração do Spark spark.databricks.delta.autoCompact.maxFileSize. A Databricks recomenda o uso do ajuste automático com base na carga de trabalho ou no tamanho da tabela. Consulte Ajuste automático do tamanho do arquivo com base na carga de trabalho e Ajuste automático do tamanho do arquivo com base no tamanho da tabela.

A compactação automática só é acionada para partições ou tabelas que tenham pelo menos um determinado número de arquivos menores. Você pode também alterar o número mínimo de arquivos necessários para acionar a compactação automática, definindo spark.databricks.delta.autoCompact.minNumFiles.

A compactação automática pode ser habilitada no nível da tabela ou da sessão usando as seguintes configurações:

  • Propriedade da tabela: delta.autoOptimize.autoCompact
  • Configuração do SparkSession: spark.databricks.delta.autoCompact.enabled

Estas configurações aceitam as seguintes opções:

Opções

Comportamento

auto (recomendado)

Ajusta o tamanho do arquivo de destino, respeitando outras funcionalidades de ajuste automático. Requer Databricks Runtime 10.4 LTS ou acima.

legacy

Alias para true. Requer Databricks Runtime 10.4 LTS ou acima.

true

Use 128 MB como o tamanho do arquivo de destino. Sem dimensionamento dinâmico.

false

Desativa a compactação automática. Pode ser configurado na sessão para substituir a compactação automática para todas as tabelas Delta modificadas na carga de trabalho.

important

Em Databricks Runtime 9.1 LTS, quando outros escritores executam operações como DELETE, MERGE, UPDATE ou OPTIMIZE simultaneamente, a compactação automática pode fazer com que esses outros trabalhos falhem com um conflito de transações. Isso não é um problema em Databricks Runtime 10.4 LTS e acima.

Gravações otimizadas para o Delta Lake no Databricks

As gravações otimizadas melhoram o tamanho do arquivo à medida que os dados são gravados e beneficiam as leituras subsequentes na tabela.

As gravações otimizadas são mais eficazes para tabelas particionadas, pois reduzem o número de pequenos arquivos gravados em cada partição. A gravação de menos arquivos grandes é mais eficiente do que gravar muitos arquivos pequenos, mas ainda pode haver um aumento na latência de gravação devido ao rearranjo dos dados antes da gravação.

A imagem a seguir mostra como as gravações otimizadas funcionam:

Gravações otimizadas

nota

O senhor pode ter um código que executa coalesce(n) ou repartition(n) logo antes de gravar os dados para controlar o número de arquivos gravados. As gravações otimizadas eliminam a necessidade de usar esse padrão.

As gravações otimizadas são habilitadas por padrão para as seguintes operações no Databricks Runtime 9.1 LTS e versões superiores:

  • MERGE
  • UPDATE com subconsultas
  • DELETE com subconsultas

As gravações otimizadas também são ativadas para declarações CTAS e operações INSERT ao usar o armazém SQL. Em Databricks Runtime 13.3 LTS e acima, todas as tabelas Delta registradas em Unity Catalog têm gravações otimizadas ativadas para CTAS declarações e INSERT operações para tabelas particionadas.

As gravações otimizadas podem ser habilitadas no nível da tabela ou da sessão usando as seguintes configurações:

  • Configuração da tabela: delta.autoOptimize.optimizeWrite
  • Configuração do SparkSession: spark.databricks.delta.optimizeWrite.enabled

Estas configurações aceitam as seguintes opções:

Opções

Comportamento

true

Use 128 MB como o tamanho do arquivo de destino.

false

Desativa as gravações otimizadas. Pode ser configurado na sessão para substituir a compactação automática para todas as tabelas Delta modificadas na carga de trabalho.

Definir um tamanho de arquivo de destino

Se o senhor quiser ajustar o tamanho dos arquivos na tabela Delta, defina a propriedade da tabela delta.targetFileSize para o tamanho desejado. Se essa propriedade for definida, todas as operações de otimização de disposição de dados farão o melhor esforço possível para gerar arquivos do tamanho especificado. Os exemplos aqui incluem otimizar ou Z-ordercompactação automática e gravações otimizadas.

nota

Ao usar tabelas gerenciadas do Unity Catalog e SQL warehouses ou Databricks Runtime 11.3 LTS e versões superiores, somente OPTIMIZE os comandos respeitam a configuração. targetFileSize

Propriedade da tabela

delta.targetFileSize Tipo: tamanho em bytes ou unidades superiores. O tamanho do arquivo de destino. Por exemplo, 104857600 (bytes) ou 100mb. Valor padrão: Nenhum

Para as tabelas existentes, o senhor pode definir e cancelar a definição de propriedades usando o comando SQL ALTER TABLE SET TBL PROPERTIES. O senhor também pode definir essas propriedades automaticamente ao criar novas tabelas usando as configurações de sessão do Spark. Consulte a referência de propriedades da tabela Delta para obter detalhes.

Ajuste automático do tamanho do arquivo com base na carga de trabalho

Databricks recomenda definir a propriedade da tabela delta.tuneFileSizesForRewrites como true para todas as tabelas que são direcionadas por muitos MERGE ou operações DML, independentemente do Databricks Runtime, Unity Catalog ou outras otimizações. Quando configurado como true, o tamanho do arquivo de destino para a tabela é configurado para um limite muito menor, o que acelera as operações de gravação intensiva.

Se não for explicitamente definido, o Databricks detecta automaticamente se 9 das últimas 10 operações anteriores em uma tabela Delta foram operações MERGE e define essa propriedade da tabela como true. Você deve definir explicitamente essa propriedade para false evitar esse comportamento.

Propriedade da tabela

delta.tuneFileSizesForRewrites Tipo: Boolean Se os tamanhos dos arquivos devem ser ajustados para otimização do layout de dados. Valor padrão: Nenhum

Para as tabelas existentes, o senhor pode definir e cancelar a definição de propriedades usando o comando SQL ALTER TABLE SET TBL PROPERTIES. O senhor também pode definir essas propriedades automaticamente ao criar novas tabelas usando as configurações de sessão do Spark. Consulte a referência de propriedades da tabela Delta para obter detalhes.

Ajuste automático do tamanho do arquivo com base no tamanho da tabela

Para minimizar a necessidade de ajuste manual, o Databricks ajusta automaticamente o tamanho do arquivo das tabelas Delta com base no tamanho da tabela. O Databricks usará tamanhos de arquivo menores para tabelas menores e tamanhos de arquivo maiores para tabelas maiores, de modo que o número de arquivos na tabela não fique muito grande. A Databricks não faz o ajuste automático de tabelas que o senhor tenha ajustado com um tamanho-alvo específico ou com base em uma carga de trabalho com reescritas frequentes.

O tamanho do arquivo de destino é baseado no tamanho atual da tabela Delta. Para tabelas menores que 2,56 TB, o tamanho do arquivo de destino ajustado automaticamente é de 256 MB. Para tabelas com um tamanho entre 2,56 TB e 10 TB, o tamanho de destino aumentará linearmente de 256 MB para 1 GB. Para tabelas maiores que 10 TB, o tamanho do arquivo de destino é 1 GB.

nota

Quando o tamanho do arquivo de destino em uma tabela aumenta, os arquivos existentes não são otimizados novamente em arquivos maiores pelo comando OPTIMIZE. Uma tabela grande pode, portanto, sempre ter alguns arquivos menores que o tamanho de destino. Se também for necessário otimizar esses arquivos menores em arquivos maiores, você pode configurar um tamanho de arquivo de destino fixo para a tabela usando a propriedade delta.targetFileSize.

Quando uma tabela é gravada de forma incremental, os tamanhos e contagens de arquivos de destino estarão próximos aos seguintes números, com base no tamanho da tabela. As contagens de arquivos nesta tabela são apenas um exemplo. Os resultados reais serão diferentes dependendo de muitos fatores.

Tamanho da tabela

Tamanho do arquivo de destino

Número aproximado de arquivos na tabela

10 GB

256 MB

40

1 TB

256 MB

4096

2,56 TB

256 MB

10240

3 TB

307 MB

12108

5 TB

512 MB

17339

7 TB

716 MB

20784

10 TB

1 GB

24437

20 TB

1 GB

34437

50 TB

1 GB

64437

100 TB

1 GB

114437

Limitar linhas escritas em um arquivo de dados

Ocasionalmente, as tabelas com dados restritos podem encontrar um erro em que o número de linhas em um determinado arquivo de dados excede os limites de suporte do formato Parquet. Para evitar esse erro, é possível usar a configuração da sessão SQL spark.sql.files.maxRecordsPerFile para especificar o número máximo de registros a serem gravados em um único arquivo para uma tabela Delta Lake. Especificar um valor zero ou negativo não representa nenhum limite.

Em Databricks Runtime 11.3 LTS e acima, o senhor também pode usar a opção DataFrameWriter maxRecordsPerFile ao usar o DataFrame APIs para gravar em uma tabela Delta Lake. Quando maxRecordsPerFile é especificado, o valor da configuração da sessão SQL spark.sql.files.maxRecordsPerFile é ignorado.

nota

O Databricks não recomenda o uso dessa opção, a menos que seja necessário evitar o erro mencionado acima. Essa configuração ainda pode ser necessária para algumas tabelas gerenciadas pelo Unity Catalog com dados muito restritos.

Atualize para a compactação automática em segundo plano

A compactação automática em segundo plano está disponível para Unity Catalog gerenciar tabelas em Databricks Runtime 11.3 LTS e acima. Ao migrar uma carga de trabalho ou tabela legada, faça o seguinte:

  • Remova o endereço Spark config spark.databricks.delta.autoCompact.enabled das definições de configuração de clustering ou Notebook.
  • Para cada tabela, execute ALTER TABLE <table_name> UNSET TBLPROPERTIES (delta.autoOptimize.autoCompact) para remover quaisquer configurações de compactação automática herdadas.

Depois de remover essas configurações herdadas, o senhor deverá ver a compactação automática em segundo plano acionada automaticamente para todas as tabelas gerenciáveis do Unity Catalog.