governança de dados com Databricks
A governança de dados é uma estrutura de políticas, processos, funções e controles técnicos que garante que os dados da sua organização sejam seguros, confiáveis e usados de forma responsável ao longo de todo o seu ciclo de vida. A governança de dados eficaz permite manter a qualidade dos dados, proteger informações confidenciais, atender aos requisitos regulatórios e maximizar o valor dos seus dados ativos.
Os principais componentes da governança de dados incluem:
- Controle de acesso e segurança : Implementação de permissões refinadas e medidas de segurança para proteger os dados contra acesso não autorizado, permitindo, ao mesmo tempo, o uso adequado.
- linhagem de dados e observabilidade : acompanhamento de fluxos e transformações de dados para entender origens, dependências e padrões de uso de dados.
- Gestão da qualidade de dados : Garantir que os dados sejam precisos, completos, consistentes e confiáveis para a tomada de decisões e análises.
- Gestão de metadados : Captura e manutenção de informações sobre dados ativos para melhorar a descoberta e a compreensão.
- Fiscalização da conformidade : Cumprimento dos requisitos regulamentares e das políticas organizacionais relativas à privacidade, retenção e utilização de dados.
Esta página aborda a governança do uso de dados Unity Catalog no Databricks. Tópicos de segurança relacionados, como autenticação, configuração de rede, criptografia de dados e compliance a privacidade, são abordados em Segurança e compliance e Visão geral da conformidade.
O modelo de governança de dados do Unity Catalog
O Unity Catalog é um catálogo de dados centralizado que fornece governança para dados estruturados e não estruturados em múltiplos formatos. Oferece controle de acesso refinado e governança de AI ativa, como o modelo de machine learning. O Unity Catalog é de código aberto e suporta múltiplas plataformas. Está profundamente integrado ao Databricks.
Unity Catalog é uma solução completa de governança de dados que oferece o seguinte:
- Unificação de dados: um view unificado de todos os dados e AI ativo, em todas as plataformas, reduzindo a duplicação e a dispersão.
- Controle de acesso a dados: ferramentas para garantir que os dados sejam acessíveis, mas apenas para os usuários corretos.
- Descoberta de dados: ferramentas que facilitam a localização dos dados de que você precisa.
- Qualidade dos dados: ferramentas para garantir que os dados sejam precisos, completos, consistentes e seguros durante todo o ciclo de vida.
- Colaboração e compartilhamento de dados: ferramentas para compartilhar dados com segurança não apenas dentro da sua organização, mas também além das fronteiras organizacionais e de plataforma.
- Auditoria: ferramentas que capturam quem usa os dados e como.
Esta página explica como sua organização pode atender a essas necessidades usando o Unity Catalog no Databricks.
Controle de acesso a dados
Para garantir que os usuários acessem apenas os dados que devem, o site Unity Catalog oferece um modelo de privilégio hierárquico que permite conceder aos usuários, grupos e entidades de serviço acesso aos dados e AI ativo, desde o nível account até as linhas e colunas da tabela. O senhor pode controlar o acesso a ativos que estão armazenados em um armazenamento dedicado Unity Catalog ou armazenados em outras plataformas, como armazenamento em nuvem ou sistemas de banco de dados: o key é que o Unity Catalog oferece aos seus usuários acesso potencial a todos os seus dados, independentemente de onde estejam, a partir do Databricks, e que o Unity Catalog controla o acesso e rastreia o uso dos dados.
Tarefa | Descrição |
|---|---|
Saiba mais sobre os objetos seguros que Unity Catalog gerenciar e como controlar o acesso a eles. | |
Saiba como controlar o acesso ou o uso de dados ABAC em Unity Catalog. | |
Aprenda a gerenciar identidades no contexto do Unity Catalog. | |
Saiba como controlar o acesso aos filtros de linha de uso de dados e às máscaras de coluna da tabela. | |
Gerenciar o acesso a plataformas externas de armazenamento e dados | Saiba como controlar o acesso ao armazenamento em nuvem, às plataformas de dados externas e aos não-serviços de dados externos usando Unity Catalog. |
Saiba como o Unity Catalog pode gerenciar o acesso aos seus dados de plataformas externas que usam o Apache Iceberg ou APIs de código aberto do Unity Catalog. |
Capacidade de descoberta de dados
O Databricks e o Unity Catalog fornecem as seguintes ferramentas para ajudar os usuários a encontrar os dados de que precisam:
Recurso | Descrição |
|---|---|
Navegue e pesquise dados e AI ativo usando nomes ativos e metadados, como comentários e tags. | |
Navegadores de catálogos | Localize dados e AI ativo usando os navegadores incorporados aos editores de consulta do Notebook e SQL. Consulte Navegar no Databricks Notebook e no editor de arquivos e Escrever consultas e explorar dados no novo editor SQL. |
Gerar automaticamente a documentação dos dados e AI ativo para auxiliar na descoberta. | |
Use uma interface de usuário incorporada ao Catalog Explorer para view os usuários e as consultas mais frequentes de qualquer tabela em Unity Catalog. | |
Capture e visualize a forma como os dados fluem pela sua organização. Para recurso e linhagem de modelo, consulte governança e linhagem de recurso. | |
Exibir relacionamentos para tabelas que tenham chave estrangeira definida. |
Consulte também Descubra dados.
Monitoramento da qualidade dos dados
As ferramentas para garantir a qualidade dos dados e a integridade dos dados estão profundamente integradas em Delta Lake, Apache Spark e Databricks. O senhor pode aprender sobre eles na documentação da Databricks.
O Unity Catalog adiciona o seguinte:
Recurso | Descrição |
|---|---|
O monitoramento da qualidade dos dados ajuda você a garantir a qualidade de todos os seus dados ativos no Unity Catalog. Inclui detecção de anomalia para monitorar a qualidade dos dados de todas as tabelas em um catálogo ou esquema e perfil de dados para monitorar as propriedades estatísticas e a qualidade dos dados de uma tabela individual. | |
Tags de sistema certificadas e obsoletas (visualização privada) | rótulo objetos seguros, como catálogos, esquemas e tabelas, com indicadores de qualidade de dados ou status do ciclo de vida. Essas tags de sistema ajudam as organizações a aplicar a governança, melhorar a capacidade de descoberta de dados e aumentar a confiança nos aplicativos analíticos e AI. |
Colaboração e compartilhamento de dados
Unity Catalog permite que seus usuários colaborem com os mesmos dados em todos os espaços de trabalho do account na mesma região. Quando o senhor precisa de colaboração entre workspace regiões, organizações e plataformas, o Unity Catalog fornece a base para as seguintes ferramentas de compartilhamento.
Recurso | Descrição |
|---|---|
Uma plataforma segura de compartilhamento de dados que permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, independentemente de esses usuários usarem Databricks ou não. | |
Um ambiente Databricks-gerenciar onde vários participantes em plataformas Databricks e nãoDatabricks podem colaborar em projetos sem compartilhar dados subjacentes entre si. | |
Um fórum aberto para troca de dados e AI produto. Ele também fornece uma troca de dados privada. |
Auditoria
Auditoria logs captura detalhes minuciosos sobre quem acessou um determinado dataset e as ações que realizou. Unity Catalog adiciona tabelas de sistema , a maneira mais fácil de acessar e consultar a auditoria do seu account logs.
Consulte Auditoria da referência log e Monitorar a atividade account com tabelas do sistema.
Ferramentas de governança de dados do Legacy Databricks
Databricks Também oferece controle de acesso à tabela, um modelo legado de governança de dados que permite que o senhor conceda e revogue de forma programática o acesso a objetos gerenciados pelo seu workspace's integrado Hive metastore. A Databricks recomenda que o senhor use o Unity Catalog em vez disso.
Próximas etapas
- Saiba mais sobre o Unity Catalog: O que é o Unity Catalog?
- Get começar Unity Catalog with: Get começar with Unity Catalog
- Analise as práticas recomendadas: O que é o Unity Catalog?