O que é o Delta Lake na Databricks?

Delta Lake é a camada de armazenamento otimizada que fornece a base para as tabelas em um lakehouse em Databricks. O Delta Lake é um software de código aberto que amplia os arquivos de dados Parquet com um log de transações baseado em arquivo para transações ACID e manipulação de metadados dimensionável. Delta Lake é totalmente compatível com o site Apache Spark APIs, e foi desenvolvido para uma forte integração com a transmissão estruturada, permitindo que o senhor utilize facilmente uma única cópia de dados para operações de lotes e transmissão e proporcionando processamento incremental em escala.

Delta Lake é o formato default para todas as operações em Databricks. A menos que especificado de outra forma, todas as tabelas em Databricks são tabelas Delta. A Databricks desenvolveu originalmente o protocolo Delta Lake e continua a contribuir ativamente com o projeto de código aberto. Muitas das otimizações e produtos da plataforma Databricks se baseiam nas garantias fornecidas por Apache Spark e Delta Lake. Para obter informações sobre otimizações em Databricks, consulte Recomendações de otimização em Databricks.

Para obter informações de referência sobre Delta Lake SQL comando, consulte Delta Lake statements.

O log de transações do Delta Lake tem um protocolo aberto bem definido que pode ser usado por qualquer sistema para ler o log. Consulte Protocolo de log de transações delta.

Como começar a usar o Delta Lake

Todas as tabelas em Databricks são tabelas Delta por default. Se o senhor estiver usando Apache Spark DataFrames ou SQL, o senhor obtém todos os benefícios do Delta Lake simplesmente salvando seus dados no lakehouse com as configurações do default.

Para exemplos de operações básicas Delta Lake , como criação de tabelas, leitura, gravação e atualização de dados, consulte o tutorial: Criar e gerenciar tabelas Delta Lake.

A Databricks tem muitas recomendações de práticas recomendadas para o Delta Lake.

Conversão e ingestão de dados para o Delta Lake

O Databricks oferece diversos produtos para acelerar e simplificar o carregamento de dados em seu lakehouse.

Para obter uma lista completa das opções de ingestão, consulte Conectores padrão em LakeFlow Connect.

Atualização e modificação das tabelas do Delta Lake

As transações atômicas com Delta Lake fornecem muitas opções para atualizar dados e metadados. O Databricks recomenda que você evite a interação direta com os arquivos de dados e os arquivos de registro de transações nos diretórios de arquivos do Delta Lake para evitar a corrupção de suas tabelas.

Delta Lake suporta upserts usando o merge operações. Consulte Upsert em uma tabela Delta Lake usando merge.
O Delta Lake oferece várias opções para substituições seletivas com base em filtros e partições. Consulte Substituição seletiva de dados com o Delta Lake.
Você pode atualizar o esquema da sua tabela manualmente ou automaticamente sem sobrescrever os dados. Consulte Atualizar esquema da tabela.
Ative o mapeamento de colunas para renomear ou excluir colunas sem reescrever dados. Consulte Renomear e soltar colunas com o mapeamento de colunas do Delta Lake.

Cargas de trabalho incrementais e de transmissão no Delta Lake

Delta Lake é otimizado para transmissão estruturada em Databricks. O pipeline declarativoLakeFlow Spark amplia as capacidades nativas com implantação de infraestrutura simplificada, escalabilidade aprimorada e gerenciamento de dependências de dados.

Consultando versões anteriores de uma tabela

Cada gravação em uma tabela Delta cria uma nova versão da tabela. Você pode usar o log de transações para revisar as modificações feitas em sua tabela e consultar versões anteriores da tabela. Consulte Trabalhar com a história da tabela.

Aprimoramentos no esquema do Delta Lake

O Delta Lake valida o esquema na gravação, garantindo que todos os dados gravados em uma tabela correspondam aos requisitos que o senhor definiu.

Gerenciando arquivos e indexando dados com o Delta Lake

O Databricks define diversos parâmetros padrão para o Delta Lake que influenciam o tamanho dos arquivos de dados e a quantidade de versões de tabela mantidas no histórico O Delta Lake usa uma combinação de análise de metadados e layout de dados físicos para reduzir o número de arquivos verificados para atender a qualquer consulta.

Configuração e revisão das configurações do Delta Lake

O Databricks armazena todos os dados e metadados das tabelas do Delta Lake no armazenamento de objetos na nuvem. Muitas configurações podem ser definidas na tabela ou na sessão do Spark. Você pode revisar os detalhes da tabela Delta para descobrir quais opções estão configuradas.

pipeline de dados usando Delta Lake e LakeFlow Spark Declarative pipeline

O Databricks incentiva os usuários a aproveitarem uma arquitetura em medalhão para processar dados por meio de uma série de tabelas à medida que os dados são limpos e enriquecidos. O pipeline declarativoLakeFlow Spark simplifica as cargas de trabalho ETL por meio de execução otimizada e implantação e escalonamento automatizados de infraestrutura.

Delta Lake compatibilidade de recursos

Nem todos os recursos do Delta Lake estão em todas as versões do Databricks Runtime. Para obter informações sobre o controle de versão do site Delta Lake, consulte Delta Lake recurso compatibility and protocols.

Documentação da API do Delta Lake

Para a maioria das operações de leitura e gravação em tabelas Delta, o senhor pode usar as APIs Spark SQL ou Apache Spark DataFrame.

Para instruções SQL específicas do Delta Lake, consulte Instruções do Delta Lake.

A Databricks garante a compatibilidade binária com as APIs do Delta Lake no Databricks Runtime. Para view o pacote da versão Delta Lake API em cada versão Databricks Runtime, consulte a seção Ambiente do sistema nos artigos relevantes nas Databricks Runtime notas sobre a versão. Para obter a documentação sobre as APIs do Delta Lake para Python, Scala e Java, consulte a documentação do OSS Delta Lake.

Como começar a usar o Delta Lake​

Conversão e ingestão de dados para o Delta Lake​

Atualização e modificação das tabelas do Delta Lake​

Cargas de trabalho incrementais e de transmissão no Delta Lake​

Consultando versões anteriores de uma tabela​

Aprimoramentos no esquema do Delta Lake​

Gerenciando arquivos e indexando dados com o Delta Lake​

Configuração e revisão das configurações do Delta Lake​

pipeline de dados usando Delta Lake e LakeFlow Spark Declarative pipeline​

Delta Lake compatibilidade de recursos​

Documentação da API do Delta Lake​