Quais são todas as coisas Delta no Databricks?

Este artigo é uma introdução à tecnologia coletivamente de marca Delta no Databricks. Delta refere-se a tecnologia relacionada ou no projeto de código aberto Delta Lake.

Este artigo responde:

  • Quais são as tecnologias Delta em Databricks?

  • O que eles fazem? Ou para que servem?

  • Como eles estão relacionados e distintos um do outro?

Para que servem as coisas Delta?

Delta é um termo introduzido com Delta Lake, a base para o armazenamento de dados e tabelas no Databricks lakehouse. Delta Lake foi concebido como um sistema unificado de gestão de dados para lidar com grandes volumes de dados transacionais em tempo real, estendendo os arquivos de dados Parquet com logs de transações baseados em arquivo para transações ACID e manipulação escalonável de metadados.

Delta Lake: gerenciamento de dados do sistema operacional para a casa do lago

Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade aos data lakes adicionando uma camada de armazenamento transacional sobre os dados armazenados no armazenamento em cloud (em AWS S3, Azure Storage e GCS). Ele permite transações ACID, versão de dados e recursos de reversão. Ele permite que você trate dados de lotes e transmissões de forma unificada.

As tabelas delta são construídas sobre essa camada de armazenamento e fornecem uma abstração de tabela, facilitando o trabalho com o uso estruturado de dados SQL em larga escala e a API DataFrame.

Tabelas Delta : arquitetura de tabela de dados padrão

A tabela Delta é o formato de tabela de dados default no Databricks e é um recurso da estrutura de dados código aberto Delta Lake. As tabelas Delta são normalmente usadas para data lakes, onde os dados são ingeridos via transmissão ou em grandes lotes.

Ver:

Delta Live Tables: pipeline de dados

Delta Live Tables gerencia o fluxo de dados entre várias tabelas Delta, simplificando assim o trabalho do engenheiro de dados no desenvolvimento e gerenciamento de ETL. O pipeline é a principal unidade de execução do Delta Live Tables. O Delta Live Tables oferece desenvolvimento de pipeline declarativo, confiabilidade de dados aprimorada e operações de produção em escala cloud . Os usuários podem realizar operações de lote e transmissão na mesma mesa e os dados ficam imediatamente disponíveis para consulta. Você define as transformações a serem realizadas em seus dados e o Delta Live Tables gerencia a orquestração de tarefas, gerenciamento clusters , monitoramento, qualidade de dados e tratamento de erros. autoscale aprimorada do Delta Live Tables pode lidar com cargas de trabalho de transmissão que são pontiagudas e imprevisíveis.

Consulte o tutorial do Delta Live Tables.

Tabelas Delta vs. Delta Live Tables

A tabela Delta é uma maneira de armazenar dados em tabelas, enquanto Delta Live Tables permitem que você descreva como os dados fluem entre essas tabelas de forma declarativa. Delta Live Tables é um framework declarativo que gerencia muitas tabelas delta, criando-as e mantendo-as atualizadas. Resumindo, as tabelas Delta são uma arquitetura de tabelas de dados, enquanto Delta Live Tables são uma estrutura de pipeline de dados.

Delta: código aberto ou proprietário?

Um ponto forte da plataforma Databricks é que ela não prende os clientes a ferramentas proprietárias: grande parte da tecnologia é alimentada por projetos de código aberto, para os quais a Databricks contribui.

Os projetos Delta OSS são exemplos:

Delta Live Tables é uma estrutura proprietária no Databricks.

Quais são as outras coisas da Delta no Databricks?

abaixo estão as descrições de outros recursos que incluem Delta em seu nome.

Delta compartilhamento

Um padrão aberto para compartilhamento seguro de dados, o Delta Sharing permite o compartilhamento de dados entre organizações, independentemente de sua plataforma compute .

motor Delta

Um otimizador query para big data que usa a tecnologia código aberto Delta Lake incluída no Databricks. O mecanismo Delta otimiza o desempenho das operações Spark SQL, Databricks SQL e DataFrame, enviando a computação para os dados.

Registro de transações do Delta Lake (também conhecido como DeltaLogs)

Uma única fonte de verdade acompanha todas as alterações que os usuários fazem na mesa e o mecanismo pelo qual o Delta Lake garante a atomicidade. Consulte o protocolo logs de transações Delta no GitHub.

Os logs de transação são key para entender o Delta Lake, porque é o fio comum que executa muitos de seus recursos mais importantes:

  • transações ACID

  • Tratamento escalonável de metadados

  • viagem do tempo

  • E mais.