governança de dados com Databricks
Esta página fornece uma visão geral de como controlar o uso de dados Unity Catalog em Databricks.
Esta página se concentra na governança de dados. Os tópicos de segurança relacionados, como os seguintes, são abordados em Segurança e compliance:
- Autenticação e controle de acesso
- Configuração da rede
- Segurança e criptografia de dados
- Privacidade e compliance
O que é o Unity Catalog?
Unity Catalog é um catálogo de dados centralizado que fornece controle de acesso refinado para dados tabulares e não estruturados em vários formatos em várias plataformas, juntamente com a governança de AI ativos, como modelos de aprendizado de máquina. Ele também inclui as ferramentas necessárias para descobrir dados, rastrear o uso, capturar a linhagem e monitorar a qualidade dos dados.
O Unity Catalog é de código aberto e oferece suporte a várias plataformas. Ele está profundamente integrado ao Databricks.
Consulte O que é o Unity Catalog?
O modelo de governança de dados do Unity Catalog
A governança de dados com o Unity Catalog oferece o seguinte:
- Unificação de dados: um view unificado de todos os dados e AI ativo, em todas as plataformas, reduzindo a duplicação e a dispersão.
- Controle de acesso a dados: ferramentas para garantir que os dados sejam fáceis de acessar, mas somente para os usuários certos.
- Descoberta de dados: ferramentas que facilitam a localização dos dados de que você precisa.
- Qualidade dos dados: ferramentas para garantir que os dados sejam precisos, completos, consistentes e seguros durante todo o ciclo de vida.
- Colaboração e compartilhamento de dados: a capacidade de compartilhar dados com segurança não apenas dentro da sua organização, mas também além dos limites organizacionais e de plataforma.
- Auditoria: ferramentas que capturam quem usa os dados e como.
Esta página explica como sua organização pode atender a essas necessidades usando o Unity Catalog no Databricks.
Controle de acesso a dados
Para garantir que os usuários acessem apenas os dados que devem, o site Unity Catalog oferece um modelo de privilégio hierárquico que permite conceder aos usuários, grupos e entidades de serviço acesso aos dados e AI ativo, desde o nível account até as linhas e colunas da tabela. O senhor pode controlar o acesso a ativos que estão armazenados em um armazenamento dedicado Unity Catalog ou armazenados em outras plataformas, como armazenamento em nuvem ou sistemas de banco de dados: o key é que o Unity Catalog oferece aos seus usuários acesso potencial a todos os seus dados, independentemente de onde estejam, a partir do Databricks, e que o Unity Catalog controla o acesso e rastreia o uso dos dados.
Tarefa | Descrição |
---|---|
Saiba mais sobre os objetos seguros que Unity Catalog gerenciar e como controlar o acesso a eles. | |
Saiba como controlar o acesso ou o uso de dados ABAC em Unity Catalog. | |
Aprenda a gerenciar identidades no contexto do Unity Catalog. | |
Saiba como controlar o acesso aos filtros de linha de uso de dados e às máscaras de coluna da tabela. | |
Gerenciar o acesso a plataformas externas de armazenamento e dados | Saiba como controlar o acesso ao armazenamento em nuvem, às plataformas de dados externas e aos não-serviços de dados externos usando Unity Catalog. |
Saiba como o Unity Catalog pode gerenciar o acesso aos seus dados de plataformas externas que usam o Apache Iceberg ou APIs de código aberto do Unity Catalog. |
Capacidade de descoberta de dados
O Databricks e o Unity Catalog fornecem as seguintes ferramentas para ajudar os usuários a encontrar os dados de que precisam:
Recurso | Descrição |
---|---|
Navegue e pesquise dados e AI ativo usando nomes ativos e metadados, como comentários e tags. | |
Navegadores de catálogos | Localize dados e AI ativo usando os navegadores incorporados aos editores de consulta do Notebook e SQL. Consulte Navegar no Databricks Notebook e no editor de arquivos e Escrever consultas e explorar dados no novo editor SQL. |
Gerar automaticamente a documentação dos dados e AI ativo para auxiliar na descoberta. | |
Use uma interface de usuário incorporada ao Catalog Explorer para view os usuários e as consultas mais frequentes de qualquer tabela em Unity Catalog. | |
Capture e visualize a forma como os dados fluem pela sua organização. Para recurso e linhagem de modelo, consulte governança e linhagem de recurso. | |
Exibir relacionamentos para tabelas que tenham chave estrangeira definida. |
Consulte também Descubra dados.
Monitoramento da qualidade dos dados
As ferramentas para garantir a qualidade dos dados e a integridade dos dados estão profundamente integradas em Delta Lake, Apache Spark e Databricks. O senhor pode aprender sobre eles na documentação da Databricks.
O Unity Catalog adiciona o seguinte:
Recurso | Descrição |
---|---|
Uma ferramenta de monitoramento de dados que captura as propriedades estatísticas e a qualidade dos dados em todas as tabelas em seu site account. O senhor também pode usá-lo para monitorar o desempenho do modelo do aprendizado de máquina e do endpoint do modelo de serviço, monitorando as tabelas de inferência que contêm entradas e previsões do modelo. | |
rótulo objetos seguros, como catálogos, esquemas e tabelas, com indicadores de qualidade de dados ou status do ciclo de vida. Essas tags de sistema ajudam as organizações a aplicar a governança, melhorar a capacidade de descoberta de dados e aumentar a confiança nos aplicativos analíticos e AI. |
Colaboração e compartilhamento de dados
Unity Catalog permite que seus usuários colaborem com os mesmos dados em todos os espaços de trabalho do account na mesma região. Quando o senhor precisa de colaboração entre workspace regiões, organizações e plataformas, o Unity Catalog fornece a base para as seguintes ferramentas de compartilhamento.
Recurso | Descrição |
---|---|
Uma plataforma segura de compartilhamento de dados que permite que o senhor compartilhe dados e AI ativo em Databricks com usuários fora da sua organização, independentemente de esses usuários usarem Databricks ou não. | |
Um ambiente Databricks-gerenciar onde vários participantes em plataformas Databricks e nãoDatabricks podem colaborar em projetos sem compartilhar dados subjacentes entre si. | |
Um fórum aberto para troca de dados e AI produto. Ele também fornece uma troca de dados privada. |
Auditoria
Auditoria logs captura detalhes minuciosos sobre quem acessou um determinado dataset e as ações que realizou. Unity Catalog adiciona tabelas de sistema , a maneira mais fácil de acessar e consultar a auditoria do seu account logs.
Consulte Auditoria da referência log e Monitorar a atividade account com tabelas do sistema.
Ferramentas de governança de dados do Legacy Databricks
Databricks também fornece esses recursos de governança herdados. A Databricks recomenda que o senhor use o Unity Catalog em vez disso.
Recurso | Descrição |
---|---|
Um modelo de governança de dados legado que permite que o senhor conceda e revogue, de forma programática, o acesso a objetos gerenciados pelo seu workspace's integrado Hive metastore. | |
Um recurso de governança de dados legado que permite que os usuários se autentiquem automaticamente em S3 buckets do clustering Databricks usando a identidade que eles usam para log in para Databricks. |
Próximas etapas
- Saiba mais sobre o Unity Catalog: O que é o Unity Catalog?
- Get começar Unity Catalog with: Get começar with Unity Catalog
- Analise as práticas recomendadas: O que é o Unity Catalog?