O que são todas as coisas Delta na Databricks?
Este artigo é uma introdução à tecnologia coletiva de marca Delta em Databricks. Delta refere-se à tecnologia relacionada ao projetoDelta Lake código aberto ou a ele.
Este artigo responde:
- Quais são as Delta tecnologia em Databricks?
- O que eles fazem? Ou para que eles são usados?
- Como eles se relacionam e se distinguem uns dos outros?
Para que são usadas as coisas Delta?
Delta é um termo introduzido com Delta Lake, a base para o armazenamento de dados e tabelas no site Databricks lakehouse. Delta Lake foi concebido como um sistema unificado de gerenciamento de dados para lidar com o tempo real transacional e lotes big data, estendendo os arquivos de dados Parquet com uma transação baseada em arquivos log para transações ACID e manipulação de metadados escalonável.
Delta Lake: OS gestão de dados para a lakehouse
Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade ao lago de dados ao adicionar uma camada de armazenamento transacional sobre os dados armazenados no armazenamento em nuvem (em AWS S3, Azure Storage e GCS). Ele permite transações ACID, controle de versão de dados e recursos de reversão. Ele permite que o senhor manipule dados de lotes e de transmissão de forma unificada.
Delta As tabelas são construídas sobre essa camada de armazenamento e fornecem uma abstração de tabela, facilitando o trabalho com o uso estruturado de dados de grande escala SQL e o DataFrame API.
Delta tabelas: arquitetura de tabela de dados padrão
Delta A tabela é o formato da tabela de dados default em Databricks e é um recurso da estrutura de dados do código aberto Delta Lake. Delta As tabelas são normalmente usadas para data lake, onde os dados são ingeridos por meio de transmissão ou em grandes lotes.
Consulte:
- Início rápido do Delta Lake: Criar uma tabela
- Atualização e modificação das tabelas do Delta Lake.
- Classe DeltaTable: Classe principal para interagir programaticamente com tabelas Delta.
DLT: pipeline de dados
O DLT gerencia o fluxo de dados entre várias tabelas Delta, simplificando assim o trabalho do engenheiro de dados no desenvolvimento e gerenciamento do ETL. O pipeline é a principal unidade de execução da DLT. A DLT oferece desenvolvimento de pipeline declarativo, maior confiabilidade dos dados e operações de produção em escala de nuvem. Os usuários podem realizar operações de lotes e de transmissão na mesma tabela e os dados ficam imediatamente disponíveis para consulta. O senhor define as transformações a serem realizadas em seus dados e o DLT gerencia a tarefa de orquestração, gerenciamento de clustering, monitoramento, qualidade dos dados e tratamento de erros. A autoescala aprimorada de DLT pode lidar com cargas de trabalho de transmissão que são pontiagudas e imprevisíveis.
Consulte o tutorial do DLT.
Delta tabelas vs. DLT
Delta A tabela é uma forma de armazenar dados em tabelas, enquanto a DLT permite que o senhor descreva como os dados fluem entre essas tabelas de forma declarativa. O DLT é uma estrutura declarativa que gerencia muitas tabelas delta, criando-as e mantendo-as atualizadas. Em resumo, as tabelas Delta são uma arquitetura de tabela de dados, enquanto a DLT é uma estrutura de pipeline de dados.
Delta: código aberto ou proprietário?
Um ponto forte da plataforma Databricks é que ela não prende os clientes a ferramentas proprietárias: Grande parte da tecnologia é alimentada por projetos de código aberto, com os quais a Databricks contribui.
Os projetos Delta OSS são exemplos:
- Delta Lake projeto: código aberto armazenamento para um lakehouse.
- Delta Sharing protocolo: Protocolo aberto para compartilhamento seguro de dados.
A DLT é uma estrutura proprietária da Databricks.
Quais são as outras coisas da Delta na Databricks?
abaixo são descrições de outros recursos que incluem Delta em seu nome.
Delta Sharing
Um padrão aberto para o compartilhamento seguro de dados, Delta Sharing permite o compartilhamento de dados entre organizações, independentemente de sua plataforma compute.
Motor Delta
Um otimizador de consulta para big data que usa Delta Lake código aberto tecnología incluído em Databricks. O mecanismo Delta otimiza o desempenho das operações Spark SQL, Databricks SQL e DataFrame, transferindo a computação para os dados.
Delta Lake transação (também conhecido como DeltaLogs) log
Uma única fonte de verdade que acompanha todas as alterações que os usuários fazem na tabela e o mecanismo pelo qual o Delta Lake garante a atomicidade. Consulte a transaçãoDelta log protocolo em GitHub.
A transação log é key para entender Delta Lake, pois é o fio condutor que percorre muitos de seus recursos mais importantes:
- Transações ACID
- Manipulação escalável de metadados
- viagem do tempo
- E muito mais