Pular para o conteúdo principal

O que é data warehousing na Databricks?

O data warehousing refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para percepções e relatórios de negócios. Este artigo contém conceitos do key para a criação de um data warehouse em seu data lakehouse.

armazenamento de dados em seu lakehouse

A arquitetura lakehouse e a Databricks SQL trazem os recursos da nuvem data warehousing para o seu lago de dados. Usando estruturas de dados, relações e ferramentas de gerenciamento familiares, o senhor pode modelar um data warehouse econômico e de alto desempenho que pode ser executado diretamente no seu data lake. Para obter mais informações, consulte O que é um data lakehouse?

arquitetura lakehouse com uma camada superior que inclui data warehousing, engenharia de dados, transmissão de dados e ciência de dados e ML

Como em um site tradicional data warehouse, o senhor modela os dados de acordo com os requisitos comerciais e, em seguida, os fornece aos usuários finais para análises e relatórios. Ao contrário de um data warehouse tradicional, o senhor pode evitar o isolamento dos dados analíticos de sua empresa ou a criação de cópias redundantes que rapidamente se tornam obsoletas.

A criação de um data warehouse dentro do seu lakehouse permite que o senhor reúna todos os seus dados em um único sistema e tire proveito de recursos como Unity Catalog e Delta Lake.

Unity Catalog adiciona um modelo de governança unificado para que o senhor possa proteger e auditar o acesso aos dados e fornecer informações de linhagem em tabelas downstream. Delta Lake adiciona transações ACID e evolução do esquema, entre outras ferramentas poderosas para manter seus dados confiáveis, escalonáveis e de alta qualidade.

O que é o Databricks SQL?

Databricks SQL é o conjunto de serviços que traz data warehousing recursos e desempenho para o seu lago de dados existente. O Databricks SQL é compatível com formatos abertos e com o padrão ANSI SQL. Um editor na plataforma SQL e ferramentas de painel de controle permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. Databricks SQL também se integra a uma variedade de ferramentas para que os analistas possam criar consultas e painéis em seus ambientes favoritos sem precisar se adaptar a uma nova plataforma.

Databricks SQL O site compute fornece recursos gerais que são executados nas tabelas do site lakehouse. Databricks SQL é alimentado pelo SQL warehouse, anteriormente chamado de SQL endpoint, que oferece SQL compute recurso escalável desacoplado do armazenamento.

Consulte Conectar-se a um SQL warehouse para obter mais informações sobre o padrão e as opções do armazém SQL.

Databricks SQL integra-se ao Unity Catalog para que o senhor possa descobrir, auditar e controlar os dados ativos em um só lugar. Para saber mais, consulte O que é o Unity Catalog?

Modelagem de dados em Databricks

O site lakehouse oferece suporte a uma variedade de estilos de modelagem. A imagem a seguir mostra como os dados são organizados e modelados à medida que passam por diferentes camadas de um lakehouse.

Um diagrama que mostra vários modelos de dados em cada nível da arquitetura do medalhão lakehouse.

Arquitetura de medalhões

A arquitetura de medalhão é um padrão de design de dados que descreve uma série de camadas de dados refinadas de forma incremental que fornecem uma estrutura básica no lakehouse. As camadas bronze, prata e ouro significam o aumento da qualidade dos dados em cada nível, sendo que a camada ouro representa a mais alta qualidade. Para obter mais informações, consulte O que é o medalhão lakehouse architecture?

Dentro de uma lakehouse, cada camada pode conter uma ou mais mesas. O data warehouse é modelado na camada prata e alimenta data marts especializados na camada ouro.

Camada de bronze

Os dados podem entrar no site lakehouse em qualquer formato e por meio de qualquer combinação de lotes ou transações de vaporização. A camada bronze fornece o espaço de aterrissagem para todos os seus dados brutos em seu formato original. Esses dados são convertidos em tabelas Delta.

Camada de prata

A camada prateada reúne os dados de diferentes fontes. Para a parte da empresa que se concentra na ciência de dados e nos aplicativos de aprendizado de máquina, é aqui que o senhor começa a fazer a curadoria de dados ativos significativos. Esse processo geralmente é marcado por um foco na velocidade e agilidade.

A camada prata também é onde o senhor pode integrar cuidadosamente os dados de fontes diferentes para criar um data warehouse alinhado com os processos comerciais existentes. Geralmente, esses dados seguem um modelo de Terceiro Formulário Normal (3NF) ou Data Vault. A especificação de restrições primárias e estrangeiras key permite que os usuários finais entendam os relacionamentos da tabela ao usar Unity Catalog. Seu data warehouse deve servir como a única fonte de verdade para seus data marts.

O próprio data warehouse é atômico e com esquema na gravação. Ele é otimizado para mudanças, de modo que o senhor pode modificar rapidamente o data warehouse para atender às suas necessidades atuais quando os processos de negócios mudarem ou evoluírem.

Camada de ouro

A camada de ouro é a camada de apresentação, que pode conter um ou mais data marts. Freqüentemente, os data marts são modelos dimensionais na forma de um conjunto de tabelas relacionadas que capturam uma perspectiva comercial específica.

A camada de ouro também abriga sandboxes departamentais e de ciência de dados para permitir o autosserviço analítico e a ciência de dados em toda a empresa. Fornecer esses sandboxes e seu próprio clustering compute separado impede que as equipes de negócios criem cópias de dados fora do lakehouse.

Próxima etapa

Para saber mais sobre os princípios e as práticas recomendadas para implementar e operar um lakehouse usando Databricks, consulte Introdução ao Well-Architected data lakehouse .