O que significa criar uma única fonte da verdade?

O Databricks Lakehouse elimina a necessidade de criar e sincronizar cópias de dados em múltiplos sistemas, unificando o acesso e o armazenamento de dados em um único sistema, estabelecendo o Lakehouse como a fonte única da verdade (SSOT). Duplicar dados frequentemente resulta em silos de dados, o que significa que diferentes equipes dentro de uma organização podem estar trabalhando com versões dos mesmos dados que diferem em qualidade e atualização.

Como o lakehouse controla as transações e o acesso aos dados?

As transações do Delta Lake usam arquivos de log armazenados junto com arquivos de dados para fornecer garantias ACID em nível de tabela. Como os arquivos de dados e de log que suportam tabelas do Delta Lake estão localizados no mesmo armazenamento de objetos na nuvem, a leitura e gravação de dados podem ocorrer simultaneamente sem o risco de muitas consultas resultarem em degradação de desempenho ou impasse para cargas de trabalho críticas para o negócio.Isso significa que usuários e aplicações em todo o ambiente corporativo podem se conectar à mesma cópia única dos dados para conduzir cargas de trabalho diversas, com a garantia de que todos os visualizadores receberão a versão mais atualizada dos dados no momento em que a consulta for executada.

Gerenciar o acesso aos dados de produção

O Unity Catalog fornece uma solução de governança de dados centralizada que permite que a gestão de dados forneça controle de acesso refinado a usuários, grupos e entidades de serviço. Unity Catalog controla as permissões usando listas de controle de acesso (ACLs) que fornecem flexibilidade e especificidade na configuração de recursos. Algumas permissões configuráveis incluem:

  • Acesso somente para leitura a algumas tabelas.

  • Permissões de criação e modificação de tabelas para um banco de dados.

  • Possibilidade de ler ou modificar dados em um local específico de armazenamento em nuvem.

  • Acesso a muitos recursos em cloud com as credenciais de armazenamento gerenciadas pelo Unity Catalog.

Para obter mais informações, consulte O que é o Unity Catalog?.

Aproveitar as views no lakehouse

As views no Databricks representam consultas salvas em relação aos dados armazenados em tabelas em algum lugar do lakehouse.Enquanto as consultas que resultam em tabelas são executadas no momento da gravação, as exibições executam a lógica de definição sempre que uma consulta contra uma view é executada. Isso significa que as views podem fornecer acesso atualizado a dados de diversas fontes e que o processamento é realizado apenas para atualizar resultados conforme necessário.

Você pode usar o Unity Catalog para proteger e compartilhar views junto com outros objetos de dados, permitindo que indivíduos e equipes compartilhem a lógica que orienta decisões-chaves de negócios em toda a organização.

Para obter mais informações, consulte O que é um view?

Compartilhar dados com colaboradores

Embora as ACLs (Listas de Controle de Acesso) no Unity Catalog cubram uma ampla gama de casos de uso para compartilhamento de dados em uma organização empresarial, o Delta Sharing expande ainda mais isso ao gerenciar o acesso somente leitura a datasets que podem ser compartilhados com colaboradores em qualquer lugar.Os casos de uso com suporte da Unity Catalog incluem:

  • Fornecimento de acesso em tempo real a análises regionais para regiões isoladas de corporações multinacionais.

  • Compartilhamento de datasets entre empresas isoladas que existem sob o mesmo grupo corporativo.

  • Fornecimento de acesso seguro a datasets selecionados por clientes para consumidores terceirizados.

Em Databricks, Delta Sharing vem integrado com Unity Catalog, mas também faz parte do código aberto Delta Lake. Para obter mais informações, consulte O que é Delta Sharing?