Práticas recomendadas para governança de dados

Este artigo aborda as melhores práticas de governança de dados, organizadas por princípios de arquitetura listados nas seções a seguir.

1. Unifique a gestão de dados

gerencia metadados para todos os ativos de dados em um só lugar

Como prática recomendada, execute a casa do lago em um único site account com um Unity Catalog. O contêiner de nível superior de objetos no Unity Catalog é um metastore. Ele armazena dados ativos (como tabelas e visualizações) e as permissões que regem o acesso a eles. Use um único metastore por região de nuvem e não acesse metastores entre regiões para evitar problemas de latência.

O metastore fornece um namespace de três níveis:

Databricks recomenda o uso de catálogos para fornecer segregação na arquitetura de informação da sua organização. Muitas vezes, isso significa que os catálogos podem corresponder ao escopo, equipe ou unidade de negócios do ambiente de desenvolvimento de software.

Rastreie a linhagem de dados para aumentar a visibilidade dos dados

A linhagem de dados é uma ferramenta poderosa que ajuda os líderes de dados a obter maior visibilidade e compreensão dos dados em suas organizações. Descreve a evolução e o refinamento dos dados desde a origem até a compreensão. A linhagem inclui a captura de todos os metadados e eventos relevantes associados aos dados em seu ciclo de vida, incluindo a fonte do conjunto de dados, quais outros conjuntos de dados foram usados para criá-lo, quem o criou e quando, quais transformações foram executadas, quais outros dados os conjuntos o usam e muitos outros eventos e atributos. A linhagem de dados pode ser usada para muitos casos de uso relacionados a dados:

  • compliance e prontidão para auditoria: a linhagem de dados ajuda as organizações a rastrear a origem de tabelas e campos. Isso é importante para atender aos requisitos de muitos regulamentos compliance , como regulamentos gerais de proteção de dados (GDPR), California Consumer Privacy Act (CCPA), Health Insurance Portability and Accountability Act (HIPAA), Basel Committee on Banking Supervision (BCBS) 239, e Lei Sarbanes-Oxley (SOX).

  • Análise de impacto/gerenciamento de mudanças: os dados passam por várias transformações desde a origem até a tabela final pronta para os negócios. Compreender o impacto potencial das alterações de dados nos usuários downstream torna-se importante de uma perspectiva de gerenciamento de risco. Esse impacto pode ser facilmente determinado usando a linhagem de dados coletada pelo Unity Catalog.

  • Garantia de qualidade de dados: entender de onde veio um conjunto de dados e quais transformações foram aplicadas fornece um contexto muito melhor para cientistas de dados e analistas, permitindo que eles obtenham um entendimento melhor e mais preciso.

  • depuração e diagnóstico: No caso de um resultado inesperado, a linhagem de dados ajuda as equipes de dados a realizar a análise de causa raiz rastreando o erro de volta à sua origem. Isso reduz drasticamente o tempo de depuração.

O Unity Catalog captura a linhagem de dados em tempo de execução nas consultas executadas no Databricks. A linhagem é compatível com todos os idiomas e é capturada até o nível da coluna. Os dados de linhagem incluem Notebook, fluxo de trabalho e dashboards relacionados à consulta. A linhagem pode ser visualizada no Catalog Explorer em tempo quase real e recuperada usando o link Databricks linhagem de dados REST API .

2. Unifique a segurança dos dados

Centralize o controle de acesso

A Databricks Data Intelligence Platform fornece métodos de controle de acesso a dados, mecanismos que descrevem quais grupos ou indivíduos podem acessar quais dados. Essas são declarações de política que podem ser extremamente granulares e específicas, até as definições de cada registro ao qual cada indivíduo tem acesso. Ou podem ser muito expressivos e amplos, como, por exemplo, todos os usuários de finanças podem ver todos os dados financeiros.

O Unity Catalog centraliza os controles de acesso para arquivos, tabelas e view. Cada objeto protegível no Unity Catalog tem um proprietário. O proprietário de um objeto tem todos os privilégios no objeto, bem como a permissão para conceder privilégios no objeto protegível a outros principais. O Unity Catalog permite gerenciar privilégios e configurar o controle de acesso usando instruções SQL DDL.

O Unity Catalog usa view dinâmica para controles de acesso refinados para que você possa restringir o acesso a linhas e colunas aos usuários e grupos autorizados a query -los. Consulte Criar uma visualização dinâmica.

Para obter mais informações, consulte Segurança, conformidade e privacidade - gerencie identidade e acesso usando o mínimo de privilégio.

Configurar registro de auditoria

A Databricks fornece acesso aos registros de auditoria das atividades realizadas pelos usuários da Databricks, permitindo que sua empresa monitore os padrões detalhados de uso da Databricks. Há dois tipos de logs: workspaceauditoria de nível logs com eventos de nível workspacee account- auditoria de nível logs com eventos de nível account.

Auditar eventos Unity Catalog

Unity Catalogs captura logsde auditoria de ações executadas no metastore. Isso permite que os administradores acessem detalhes detalhados sobre quem acessou um determinado dataset e quais ações executaram.

Auditar eventos de compartilhamento de dados

Para o compartilhamento seguro com o Delta Sharing, a Databricks fornece logs de auditoria para monitorar os eventos do Delta Sharing, incluindo:

  • Quando alguém cria, modifica, atualiza ou exclui um compartilhamento ou um destinatário.

  • Quando um destinatário acessa um link de ativação e downloads a credencial.

  • Quando um destinatário acessa compartilhamentos ou dados em tabelas compartilhadas.

  • Quando a credencial de um destinatário é rotacionada ou expira.

3. Gerencie a qualidade dos dados

A Databricks Data Intelligence Platform fornece um gerenciamento robusto da qualidade dos dados com controles de qualidade integrados, testes, monitoramento e aplicação para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho de BI, analítica e machine learning downstream.

Consulte Confiabilidade - gerenciar a qualidade dos dados.

4. Compartilhe dados com segurança e em tempo real

Use o protocolo de compartilhamento Delta aberto para compartilhar dados com parceiros

Delta compartilhamento fornece uma solução aberta para compartilhamento seguro de dados ao vivo de sua lakehouse para qualquer plataforma de computação. Os destinatários não precisam estar na plataforma Databricks, na mesma cloud ou em qualquer cloud . O Delta compartilhamento é integrado nativamente ao Unity Catalog, permitindo que as organizações gerenciem e auditem centralmente os dados compartilhados em toda a empresa e compartilhem ativos de dados com confiança, atendendo aos requisitos de segurança e compliance .

Os provedores de dados podem compartilhar dados ao vivo de onde eles residem em seu armazenamento cloud sem replicá-los ou movê-los para outro sistema. Essa abordagem reduz os custos operacionais do compartilhamento de dados porque os provedores de dados não precisam replicar dados várias vezes na cloud, regiões geográficas ou plataformas de dados para cada um de seus consumidores de dados.

Use Databricks-to-Databricks Delta Sharing entre usuários Databricks

Se você deseja compartilhar dados com usuários que não têm acesso ao metastore do Unity Catalog , pode usar o compartilhamento Delta Databricks-para-Databricks, desde que os destinatários tenham acesso a um workspace do Databricks habilitado para Unity Catalog. O compartilhamento de Databricks para Databricks permite que você compartilhe dados com usuários em outra account Databricks, em regiões cloud , em provedores cloud . É uma ótima maneira de compartilhar dados com segurança em diferentes metastores do Unity Catalog em sua própria account do Databricks.