Qual é a arquitetura da casa de lago do medalhão?

A arquitetura do medalhão descreve uma série de camadas de dados que denotam a qualidade dos dados armazenados na lakehouse. Databricks recomenda adotar uma abordagem multicamadas para criar uma única fonte de verdade para produtos de dados corporativos. Essa arquitetura garante atomicidade, consistência, isolamento e durabilidade à medida que os dados passam por várias camadas de validações e transformações antes de serem armazenados em uma disposição otimizada para análise eficiente. Os termos bronze (bruto), prata (validado) e ouro (enriquecido) descrevem a qualidade dos dados em cada uma dessas camadas.

É importante observar que essa arquitetura de medalhão não substitui outras técnicas de modelagem dimensional. Os esquemas e as tabelas de cada camada podem assumir diversas formas e graus de normalização, dependendo da frequência e da natureza das atualizações de dados e dos casos de uso posterior dos dados.

As organizações podem aproveitar o databricks lakehouse para criar e manter dataset validado acessível em toda a empresa. Adotar uma mentalidade organizacional focada na curadoria de dados como produtos é uma passo key na construção bem-sucedida de um data lakehouse.

Ingerir dados brutos na camada bronze

A camada bronze contém dados não validados. Dados ingeridos na camada bronze normalmente:

  • Mantém o estado bruto da fonte de dados.

  • É acrescentado de forma incremental e cresce com o tempo.

  • Pode ser qualquer combinação de streaming e transações em lote.

Manter o histórico completo e não processado de cada conjunto de dados em um formato de armazenamento eficiente permite recriar qualquer estado de um determinado sistema de dados.

Metadados adicionais (como nomes de arquivos de origem ou registro da hora em que os dados foram processados) podem ser adicionados aos dados na ingestão para melhorar a capacidade de descoberta, a descrição do estado do conjunto de dados de origem e o desempenho otimizado em aplicativos downstream.

Validar e eliminar a duplicação de dados na camada prateada

Lembre-se de que, embora a camada de bronze contenha todo o histórico de dados em um estado quase bruto, a camada de prata representa uma versão validada e enriquecida de nossos dados que podem ser confiáveis para análise downstream.

Embora a Databricks acredite fortemente na visão da casa do lago impulsionada por mesas de bronze, prata e ouro, a simples implementação de uma camada de prata de forma eficiente desbloqueará imediatamente muitos dos benefícios potenciais da casa do lago.

Para qualquer pipeline de dados, a camada de prata pode conter mais de uma tabela.

Potencialize a análise com a camada dourada

Esses dados valiosos geralmente são altamente refinados e agregados, contendo dados que potencializam aplicativos de análise, aprendizado de máquina e produção. Embora todas as tabelas na casa do lago devam servir a um propósito importante, as tabelas douradas representam dados que foram transformados em conhecimento, em vez de apenas informações.

Os analistas confiam amplamente nas tabelas douradas para suas principais responsabilidades, e os dados compartilhados com um cliente raramente seriam armazenados fora desse nível.

As atualizações dessas tabelas são concluídas como parte das cargas de trabalho de produção programadas regularmente, o que ajuda a controlar os custos e permite o estabelecimento de acordos de nível de serviço (SLAs) para a atualização dos dados.

Embora o lakehouse não tenha os mesmos problemas de deadlock que o senhor pode encontrar em um data warehouse corporativo, as tabelas gold geralmente são armazenadas em um contêiner de armazenamento separado para ajudar a evitar limites de nuvem nas solicitações de dados.

Em geral, como agregações, junções e filtragem são tratadas antes de os dados serem gravados na camada ouro, os usuários devem ver o desempenho da consulta de baixa latência em dados em tabelas douradas.