Pular para o conteúdo principal

governança de dados com Databricks

Esta página fornece uma visão geral de como controlar o uso de dados Unity Catalog em Databricks.

nota

Esta página se concentra na governança de dados. Os tópicos de segurança relacionados, como os seguintes, são abordados em Segurança e compliance:

  • Autenticação e controle de acesso
  • Configuração da rede
  • Segurança e criptografia de dados
  • Privacidade e compliance

O que é o Unity Catalog?

Unity Catalog é um catálogo de dados centralizado que fornece controle de acesso refinado para dados tabulares e não estruturados em vários formatos em várias plataformas, juntamente com a governança de AI ativos, como modelos de aprendizado de máquina. Ele também inclui as ferramentas necessárias para descobrir dados, rastrear o uso, capturar a linhagem e monitorar a qualidade dos dados.

O Unity Catalog é de código aberto e oferece suporte a várias plataformas. Ele está profundamente integrado ao Databricks.

Consulte O que é o Unity Catalog?

O modelo de governança de dados do Unity Catalog

A governança de dados com o Unity Catalog oferece o seguinte:

  • Unificação de dados: um view unificado de todos os dados e AI ativo, em todas as plataformas, reduzindo a duplicação e a dispersão.
  • Controle de acesso a dados: ferramentas para garantir que os dados sejam fáceis de acessar, mas somente para os usuários certos.
  • Descoberta de dados: ferramentas que facilitam a localização dos dados de que você precisa.
  • Qualidade dos dados: ferramentas para garantir que os dados sejam precisos, completos, consistentes e seguros durante todo o ciclo de vida.
  • Colaboração e compartilhamento de dados: a capacidade de compartilhar dados com segurança não apenas dentro da sua organização, mas também além dos limites organizacionais e de plataforma.
  • Auditoria: ferramentas que capturam quem usa os dados e como.

Esta página explica como sua organização pode atender a essas necessidades usando o Unity Catalog no Databricks.

Controle de acesso a dados

Para garantir que os usuários acessem apenas os dados que devem, o site Unity Catalog oferece um modelo de privilégio hierárquico que permite conceder aos usuários, grupos e entidades de serviço acesso aos dados e AI ativo, desde o nível account até as linhas e colunas da tabela. O senhor pode controlar o acesso a ativos que estão armazenados em um armazenamento dedicado Unity Catalog ou armazenados em outras plataformas, como armazenamento em nuvem ou sistemas de banco de dados: o key é que o Unity Catalog oferece aos seus usuários acesso potencial a todos os seus dados, independentemente de onde estejam, a partir do Databricks, e que o Unity Catalog controla o acesso e rastreia o uso dos dados.

Tarefa

Descrição

Gerenciar privilégios

Saiba mais sobre os objetos seguros que Unity Catalog gerenciar e como controlar o acesso a eles.

gerenciar o controle de acesso baseado em atributos (ABAC)

Saiba como controlar o acesso ou o uso de dados ABAC em Unity Catalog.

gerenciar identidades

Aprenda a gerenciar identidades no contexto do Unity Catalog.

Controle de acesso refinado

Saiba como controlar o acesso aos filtros de linha de uso de dados e às máscaras de coluna da tabela.

Gerenciar o acesso a plataformas externas de armazenamento e dados

Saiba como controlar o acesso ao armazenamento em nuvem, às plataformas de dados externas e aos não-serviços de dados externos usando Unity Catalog.

gerenciar o acesso a partir de plataformas externas

Saiba como o Unity Catalog pode gerenciar o acesso aos seus dados de plataformas externas que usam o Apache Iceberg ou APIs de código aberto do Unity Catalog.

Capacidade de descoberta de dados

O Databricks e o Unity Catalog fornecem as seguintes ferramentas para ajudar os usuários a encontrar os dados de que precisam:

Recurso

Descrição

Explorador de Catálogos

Navegue e pesquise dados e AI ativo usando nomes ativos e metadados, como comentários e tags.

Navegadores de catálogos

Localize dados e AI ativo usando os navegadores incorporados aos editores de consulta do Notebook e SQL. Consulte Navegar no Databricks Notebook e no editor de arquivos e Escrever consultas e explorar dados no novo editor SQL.

AI-comentários gerados

Gerar automaticamente a documentação dos dados e AI ativo para auxiliar na descoberta.

Percepções da tabela

Use uma interface de usuário incorporada ao Catalog Explorer para view os usuários e as consultas mais frequentes de qualquer tabela em Unity Catalog.

Linhagem de dados

Capture e visualize a forma como os dados fluem pela sua organização.

Para recurso e linhagem de modelo, consulte governança e linhagem de recurso.

Diagramas de relacionamento entre entidades (ERD)

Exibir relacionamentos para tabelas que tenham chave estrangeira definida.

Consulte também Descubra dados.

Monitoramento da qualidade dos dados

As ferramentas para garantir a qualidade dos dados e a integridade dos dados estão profundamente integradas em Delta Lake, Apache Spark e Databricks. O senhor pode aprender sobre eles na documentação da Databricks.

O Unity Catalog adiciona o seguinte:

Recurso

Descrição

Monitoramento do lakehouse

Uma ferramenta de monitoramento de dados que captura as propriedades estatísticas e a qualidade dos dados em todas as tabelas em seu site account. O senhor também pode usá-lo para monitorar o desempenho do modelo do aprendizado de máquina e do endpoint do modelo de serviço, monitorando as tabelas de inferência que contêm entradas e previsões do modelo.

Tags de sistema certificadas e obsoletas

rótulo objetos seguros, como catálogos, esquemas e tabelas, com indicadores de qualidade de dados ou status do ciclo de vida. Essas tags de sistema ajudam as organizações a aplicar a governança, melhorar a capacidade de descoberta de dados e aumentar a confiança nos aplicativos analíticos e AI.

Colaboração e compartilhamento de dados

Unity Catalog permite que seus usuários colaborem com os mesmos dados em todos os espaços de trabalho do account na mesma região. Quando o senhor precisa de colaboração entre workspace regiões, organizações e plataformas, o Unity Catalog fornece a base para as seguintes ferramentas de compartilhamento.

Recurso

Descrição

Delta Sharing

Uma plataforma segura de compartilhamento de dados que permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, independentemente de esses usuários usarem Databricks ou não.

Clean Rooms

Um ambiente Databricks-gerenciar onde vários participantes em plataformas Databricks e nãoDatabricks podem colaborar em projetos sem compartilhar dados subjacentes entre si.

Databricks Marketplace

Um fórum aberto para troca de dados e AI produto. Ele também fornece uma troca de dados privada.

Auditoria

Auditoria logs captura detalhes minuciosos sobre quem acessou um determinado dataset e as ações que realizou. Unity Catalog adiciona tabelas de sistema , a maneira mais fácil de acessar e consultar a auditoria do seu account logs.

Consulte Auditoria da referência log e Monitorar a atividade account com tabelas do sistema.

Ferramentas de governança de dados do Legacy Databricks

Databricks também fornece esses recursos de governança herdados. A Databricks recomenda que o senhor use o Unity Catalog em vez disso.

Recurso

Descrição

Controle de acesso às tabelas

Um modelo de governança de dados legado que permite que o senhor conceda e revogue, de forma programática, o acesso a objetos gerenciados pelo seu workspace's integrado Hive metastore.

IAM role passagem de credenciais

Um recurso de governança de dados legado que permite que os usuários se autentiquem automaticamente em S3 buckets do clustering Databricks usando a identidade que eles usam para log in para Databricks.

Próximas etapas

Esse artigo foi útil?