Arquitetura de data lakehouse: estrutura well-Architected do Databricks

Esse conjunto de artigos sobre arquitetura de data lakehouse oferece princípios e práticas recomendadas para a implementação e a operação de um lakehouse utilizando o Databricks.

Estrutura well-architected do Databricks para a lakehouse

Estrutura well-architected: diagrama do data lakehouse.

O well-architected lakehouse consiste em sete pilares que descrevem diversas áreas de preocupação na implementação de um data lakehouse na nuvem:

  • Governança de dados

    A supervisão para garantir que os dados agreguem valor e ofereçam suporte à sua estratégia de negócios.

  • Interoperabilidade e usabilidade

    A capacidade do lakehouse de interagir com usuários e outros sistemas.

  • Excelência operacional

    Todos os processos operacionais que mantêm o lakehouse funcionando em produção.

  • Segurança, privacidade e compliance

    Proteja o aplicativo Databricks, as cargas de trabalho do cliente e os dados do cliente contra ameaças.

  • Confiabilidade

    A capacidade de um sistema de se recuperar de falhas e continuar funcionando.

  • Eficiência de desempenho

    A capacidade de um sistema de adaptar-se às mudanças na carga.

  • Otimização de custos

    Gerenciar custos para maximizar o valor entregue.

O well-architected lakehouse estende o AWS Well-Architected Framework para a plataforma de inteligência de dados Databricks e compartilha os pilares de “Excelência operacional”, “Segurança” (como “segurança , privacidade e conformidade”), “Confiabilidade”, “Eficiência de desempenho” e “Otimização de custos”.

Para esses cinco pilares, os princípios e as práticas recomendadas da estrutura de nuvem ainda se aplicam ao lakehouse. A well-architected lakehouse os estende com princípios e melhores práticas específicos da lakehouse e importantes para construir uma lakehouse eficaz e eficiente.

Governança de dados e interoperabilidade e usabilidade em arquiteturas lakehouse

Os pilares "Governança de Dados" e "Interoperabilidade e Usabilidade" abrangem preocupações específicas do lakehouse.

A governança de dados engloba as políticas e práticas implementadas para gerenciar com segurança os ativos de dados em uma organização. Um dos aspectos fundamentais de um lakehouse é a governança de dados centralizada: o lakehouse unifica o data warehousing e os casos de uso de IA em uma única plataforma. Isso simplifica a stack de dados moderna ao acabar com silos que tradicionalmente separam e complicam as áreas de engenharia de dados, análise, BI, ciência de dados e machine learning. Para simplificar a governança de dados, o lakehouse oferece uma solução de governança unificada para dados, análises e IA. Ao minimizar as cópias de seus dados e passar para uma única camada de processamento de dados, na qual todos os controles de governança de dados podem ser executados em conjunto, você aumenta suas chances de manter a compliance e detectar uma violação de dados.

Outro princípio importante do lakehouse é proporcionar uma ótima experiência de usuário para todas as personas que trabalham com ele e ser capaz de interagir com um amplo ecossistema de sistemas externos. A AWS já tem diversas ferramentas de dados que executam a maioria das tarefas que uma empresa data-driven pode precisar. No entanto, essas ferramentas devem ser montadas corretamente para proporcionarem todas as funcionalidades, com cada serviço oferecendo uma experiência de usuário diferente. Essa abordagem pode levar a altos custos de implementação e, normalmente, não oferece a mesma experiência de usuário que uma plataforma lakehouse nativa: os usuários são limitados por inconsistências entre as ferramentas e pela falta de recursos de colaboração e, muitas vezes, precisam passar por processos complexos para obter acesso ao sistema e, portanto, aos dados.

Uma lakehouse integrada, por outro lado, proporciona uma experiência de usuário uniforme em todas as cargas de trabalho e, portanto, aumenta a usabilidade. Isso reduz os custos de treinamento e integração e melhora a colaboração entre as funções. Além disso, novos recursos são adicionados automaticamente com o passar do tempo para melhorar ainda mais a experiência do usuário, sem a necessidade de investir em recursos e orçamentos internos.

Uma abordagem multicloud pode ser uma estratégia deliberada da empresa ou o resultado de fusões e aquisições ou unidades de negócios independentes que selecionam diferentes provedores de cloud. Nesse caso, usar um lakehouse multicloud resulta em uma experiência de usuário unificada em todas as clouds. Isto reduz a proliferação de sistemas em toda a empresa, o que, por sua vez, reduz os requisitos de competências e treinamento dos funcionários envolvidos em tarefa data-driven.

Finalmente, em um mundo em rede com processos de negócios entre empresas, os sistemas devem trabalhar juntos da maneira mais simplificada possível. O grau de interoperabilidade é um critério crucial aqui, e os dados mais recentes, como um ativo central de qualquer negócio, devem fluir com segurança entre os sistemas de parceiros internos e externos.