Pular para o conteúdo principal

governança de dados com Databricks

A governança de dados é uma estrutura de políticas, processos, funções e controles técnicos que garante que os dados da sua organização sejam seguros, confiáveis e usados de forma responsável ao longo de todo o seu ciclo de vida. A governança de dados eficaz permite manter a qualidade dos dados, proteger informações confidenciais, atender aos requisitos regulatórios e maximizar o valor dos seus dados ativos.

Os principais componentes da governança de dados incluem:

  • Controle de acesso e segurança : Implementação de permissões refinadas e medidas de segurança para proteger os dados contra acesso não autorizado, permitindo, ao mesmo tempo, o uso adequado.
  • linhagem de dados e observabilidade : acompanhamento de fluxos e transformações de dados para entender origens, dependências e padrões de uso de dados.
  • Gestão da qualidade de dados : Garantir que os dados sejam precisos, completos, consistentes e confiáveis para a tomada de decisões e análises.
  • Gestão de metadados : Captura e manutenção de informações sobre dados ativos para melhorar a descoberta e a compreensão.
  • Fiscalização da conformidade : Cumprimento dos requisitos regulamentares e das políticas organizacionais relativas à privacidade, retenção e utilização de dados.

Esta página aborda a governança do uso de dados Unity Catalog no Databricks. Tópicos de segurança relacionados, como autenticação, configuração de rede, criptografia de dados e compliance a privacidade, são abordados em Segurança e compliance e Visão geral da conformidade.

O modelo de governança de dados do Unity Catalog

O Unity Catalog é um catálogo de dados centralizado que fornece governança para dados estruturados e não estruturados em múltiplos formatos. Oferece controle de acesso refinado e governança de AI ativa, como o modelo de machine learning. O Unity Catalog é de código aberto e suporta múltiplas plataformas. Está profundamente integrado ao Databricks.

Unity Catalog é uma solução completa de governança de dados que oferece o seguinte:

  • Unificação de dados: um view unificado de todos os dados e AI ativo, em todas as plataformas, reduzindo a duplicação e a dispersão.
  • Controle de acesso a dados: ferramentas para garantir que os dados sejam acessíveis, mas apenas para os usuários corretos.
  • Descoberta de dados: ferramentas que facilitam a localização dos dados de que você precisa.
  • Qualidade dos dados: ferramentas para garantir que os dados sejam precisos, completos, consistentes e seguros durante todo o ciclo de vida.
  • Colaboração e compartilhamento de dados: ferramentas para compartilhar dados com segurança não apenas dentro da sua organização, mas também além das fronteiras organizacionais e de plataforma.
  • Auditoria: ferramentas que capturam quem usa os dados e como.

Esta página explica como sua organização pode atender a essas necessidades usando o Unity Catalog no Databricks.

Controle de acesso a dados

Para garantir que os usuários acessem apenas os dados que devem, o site Unity Catalog oferece um modelo de privilégio hierárquico que permite conceder aos usuários, grupos e entidades de serviço acesso aos dados e AI ativo, desde o nível account até as linhas e colunas da tabela. O senhor pode controlar o acesso a ativos que estão armazenados em um armazenamento dedicado Unity Catalog ou armazenados em outras plataformas, como armazenamento em nuvem ou sistemas de banco de dados: o key é que o Unity Catalog oferece aos seus usuários acesso potencial a todos os seus dados, independentemente de onde estejam, a partir do Databricks, e que o Unity Catalog controla o acesso e rastreia o uso dos dados.

Tarefa

Descrição

Gerenciar privilégios

Saiba mais sobre os objetos seguros que Unity Catalog gerenciar e como controlar o acesso a eles.

gerenciar o controle de acesso baseado em atributos (ABAC)

Saiba como controlar o acesso ou o uso de dados ABAC em Unity Catalog.

gerenciar identidades

Aprenda a gerenciar identidades no contexto do Unity Catalog.

Controle de acesso refinado

Saiba como controlar o acesso aos filtros de linha de uso de dados e às máscaras de coluna da tabela.

Gerenciar o acesso a plataformas externas de armazenamento e dados

Saiba como controlar o acesso ao armazenamento em nuvem, às plataformas de dados externas e aos não-serviços de dados externos usando Unity Catalog.

gerenciar o acesso a partir de plataformas externas

Saiba como o Unity Catalog pode gerenciar o acesso aos seus dados de plataformas externas que usam o Apache Iceberg ou APIs de código aberto do Unity Catalog.

Capacidade de descoberta de dados

O Databricks e o Unity Catalog fornecem as seguintes ferramentas para ajudar os usuários a encontrar os dados de que precisam:

Recurso

Descrição

Explorador de Catálogos

Navegue e pesquise dados e AI ativo usando nomes ativos e metadados, como comentários e tags.

Navegadores de catálogos

Localize dados e AI ativo usando os navegadores incorporados aos editores de consulta do Notebook e SQL. Consulte Navegar no Databricks Notebook e no editor de arquivos e Escrever consultas e explorar dados no novo editor SQL.

AI-comentários gerados

Gerar automaticamente a documentação dos dados e AI ativo para auxiliar na descoberta.

Percepções da tabela

Use uma interface de usuário incorporada ao Catalog Explorer para view os usuários e as consultas mais frequentes de qualquer tabela em Unity Catalog.

Linhagem de dados

Capture e visualize a forma como os dados fluem pela sua organização.

Para recurso e linhagem de modelo, consulte governança e linhagem de recurso.

Diagramas de relacionamento entre entidades (ERD)

Exibir relacionamentos para tabelas que tenham chave estrangeira definida.

Consulte também Descubra dados.

Monitoramento da qualidade dos dados

As ferramentas para garantir a qualidade dos dados e a integridade dos dados estão profundamente integradas em Delta Lake, Apache Spark e Databricks. O senhor pode aprender sobre eles na documentação da Databricks.

O Unity Catalog adiciona o seguinte:

Recurso

Descrição

Qualidade de dados

O monitoramento da qualidade dos dados ajuda você a garantir a qualidade de todos os seus dados ativos no Unity Catalog. Inclui detecção de anomalia para monitorar a qualidade dos dados de todas as tabelas em um catálogo ou esquema e perfil de dados para monitorar as propriedades estatísticas e a qualidade dos dados de uma tabela individual.

Tags de sistema certificadas e obsoletas (visualização privada)

rótulo objetos seguros, como catálogos, esquemas e tabelas, com indicadores de qualidade de dados ou status do ciclo de vida. Essas tags de sistema ajudam as organizações a aplicar a governança, melhorar a capacidade de descoberta de dados e aumentar a confiança nos aplicativos analíticos e AI.

Colaboração e compartilhamento de dados

Unity Catalog permite que seus usuários colaborem com os mesmos dados em todos os espaços de trabalho do account na mesma região. Quando o senhor precisa de colaboração entre workspace regiões, organizações e plataformas, o Unity Catalog fornece a base para as seguintes ferramentas de compartilhamento.

Recurso

Descrição

Delta Sharing

Uma plataforma segura de compartilhamento de dados que permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, independentemente de esses usuários usarem Databricks ou não.

Clean Rooms

Um ambiente Databricks-gerenciar onde vários participantes em plataformas Databricks e nãoDatabricks podem colaborar em projetos sem compartilhar dados subjacentes entre si.

Databricks Marketplace

Um fórum aberto para troca de dados e AI produto. Ele também fornece uma troca de dados privada.

Auditoria

Auditoria logs captura detalhes minuciosos sobre quem acessou um determinado dataset e as ações que realizou. Unity Catalog adiciona tabelas de sistema , a maneira mais fácil de acessar e consultar a auditoria do seu account logs.

Consulte Auditoria da referência log e Monitorar a atividade account com tabelas do sistema.

Ferramentas de governança de dados do Legacy Databricks

Databricks Também oferece controle de acesso à tabela, um modelo legado de governança de dados que permite que o senhor conceda e revogue de forma programática o acesso a objetos gerenciados pelo seu workspace's integrado Hive metastore. A Databricks recomenda que o senhor use o Unity Catalog em vez disso.

Próximas etapas