Arquitetura de data lakehouse: estrutura well-Architected do Databricks

Esse conjunto de artigos sobre arquitetura de data lakehouse oferece princípios e práticas recomendadas para a implementação e a operação de um lakehouse utilizando o Databricks.

Estrutura well-architected do Databricks para a lakehouse

Estrutura well-architected: diagrama do data lakehouse.

O well-architected lakehouse consiste em sete pilares que descrevem diversas áreas de preocupação na implementação de um data lakehouse na nuvem:

  • Governança de dados e IA

    A supervisão para garantir que os dados e o site AI agreguem valor e apoiem sua estratégia de negócios.

  • Interoperabilidade e usabilidade

    A capacidade do lakehouse de interagir com usuários e outros sistemas.

  • Excelência operacional

    Todos os processos operacionais que mantêm o lakehouse funcionando em produção.

  • Segurança, privacidade e compliance

    Proteja o aplicativo Databricks, as cargas de trabalho do cliente e os dados do cliente contra ameaças.

  • Confiabilidade

    A capacidade de um sistema de se recuperar de falhas e continuar funcionando.

  • Eficiência de desempenho

    A capacidade de um sistema de adaptar-se às mudanças na carga.

  • Otimização de custos

    Gerenciar custos para maximizar o valor entregue.

O Well-Architected lakehouse estende o AWS Well-Architected Framework para a Databricks Data Intelligence Platform e compartilha os pilares "Excelência operacional", "Segurança" (como "Segurança, privacidade e compliance"), "Confiabilidade", "Eficiência de desempenho" e "Otimização de custos".

Para esses cinco pilares, os princípios e as práticas recomendadas da estrutura de nuvem ainda se aplicam ao site lakehouse. O Well-Architected lakehouse amplia esses princípios e melhores práticas específicos do lakehouse e importantes para construir um lakehouse eficaz e eficiente.

Os pilares específicos da casa do lago

Os pilares "Governança de dados e AI " e "Interoperabilidade e usabilidade" abrangem preocupações específicas do lakehouse.

A governança de dados e AI engloba as políticas e práticas implementadas para gerenciar com segurança os dados e AI ativos em uma organização. Um dos aspectos fundamentais de um lakehouse é a governança centralizada de dados e AI: O lakehouse unifica os casos de uso data warehousing e AI em uma única plataforma. Isso simplifica a pilha de dados moderna, eliminando os silos de dados que tradicionalmente separam e complicam a engenharia de dados, a analítica, BI, a ciência de dados e o aprendizado de máquina. Para simplificar essas tarefas de governança, o site lakehouse oferece uma solução de governança unificada para análise de dados e AI. Ao minimizar as cópias de seus dados e migrar para uma única camada de processamento de dados em que todos os seus dados e controles de governança AI possam ser executados em conjunto, o senhor aumenta suas chances de permanecer em compliance e detectar uma violação de dados.

Outro princípio importante do lakehouse é proporcionar uma ótima experiência de usuário para todas as personas que trabalham com ele e ser capaz de interagir com um amplo ecossistema de sistemas externos. A AWS já tem diversas ferramentas de dados que executam a maioria das tarefas que uma empresa data-driven pode precisar. No entanto, essas ferramentas devem ser montadas corretamente para proporcionarem todas as funcionalidades, com cada serviço oferecendo uma experiência de usuário diferente. Essa abordagem pode levar a altos custos de implementação e, normalmente, não oferece a mesma experiência de usuário que uma plataforma lakehouse nativa: os usuários são limitados por inconsistências entre as ferramentas e pela falta de recursos de colaboração e, muitas vezes, precisam passar por processos complexos para obter acesso ao sistema e, portanto, aos dados.

Uma lakehouse integrada, por outro lado, proporciona uma experiência de usuário uniforme em todas as cargas de trabalho e, portanto, aumenta a usabilidade. Isso reduz os custos de treinamento e integração e melhora a colaboração entre as funções. Além disso, novos recursos são adicionados automaticamente com o passar do tempo para melhorar ainda mais a experiência do usuário, sem a necessidade de investir em recursos e orçamentos internos.

Uma abordagem multicloud pode ser uma estratégia deliberada da empresa ou o resultado de fusões e aquisições ou unidades de negócios independentes que selecionam diferentes provedores de cloud. Nesse caso, usar um lakehouse multicloud resulta em uma experiência de usuário unificada em todas as clouds. Isto reduz a proliferação de sistemas em toda a empresa, o que, por sua vez, reduz os requisitos de competências e treinamento dos funcionários envolvidos em tarefa data-driven.

Finalmente, em um mundo em rede com processos de negócios entre empresas, os sistemas devem trabalhar juntos da maneira mais simplificada possível. O grau de interoperabilidade é um critério crucial aqui, e os dados mais recentes, como um ativo central de qualquer negócio, devem fluir com segurança entre os sistemas de parceiros internos e externos.