Classificação de dados
Beta
Esse recurso está na versão beta.
O catálogo de dados pode ter uma grande quantidade de dados, muitas vezes contendo dados confidenciais conhecidos e desconhecidos. É fundamental que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam controlar e democratizar o acesso a esses dados.
Para resolver esse problema, o Databricks Data Classification classifica e marca automaticamente as tabelas em seu catálogo. Isso permite que o senhor descubra dados confidenciais, bem como aplique controles de governança sobre os resultados, usando ferramentas como role-based access control (RBAC) e políticas de controle de acesso baseadas em atributos (ABAC) em Unity Catalog.
Com esse recurso, o senhor poderá:
- Classificar dados : O mecanismo usa um sistema composto AI para classificar automaticamente (e marcar) quaisquer tabelas em Unity Catalog.
- Otimize o custo por meio da varredura inteligente : O sistema determina de forma inteligente quando escanear seus dados, aproveitando o Unity Catalog e o Data Intelligence Engine. Isso significa que a varredura é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
- Revise as classificações : Essa visualização fornece um AI/BI dashboard para ajudá-lo a visualizar os resultados da classificação e o impacto downstream em todo o seu catálogo.
Para comentários ou perguntas, entre em contato conosco pelo e-mail data-classification-feedback@databricks.com.
Isenção de responsabilidade
- O Databricks Data Classification usa um modelo de linguagem grande (LLM) hospedado pelo Databricks para auxiliar na classificação. A Databricks implementa controles de segurança para proteger seus dados. Para obter detalhes, consulte Proteção de dados em servindo modelo e Databricks AI recurso confiança e segurança.
- O Databricks Data Classification está disponível gratuitamente por um período limitado para catálogos com até 1.000 tabelas. Após esse período, o senhor será cobrado pelo compute usado para executar o mecanismo de classificação.
Requisitos
- O senhor deve ter o site serverless compute ativado. Consulte Conectar-se a serverless compute .
- Para ativar a classificação de dados, você deve ter os privilégios
MANAGE
,CREATE SCHEMA
eSELECT
no catálogo. - A classificação de dados só é suportada em catálogos padrão.
começar a classificação de dados
Para ativar o recurso:
-
Navegue até qualquer catálogo e clique em Details (Detalhes) tab.
-
Clique no botão Classificação de dados para ativá-lo.
-
(Opcionalmente) Selecione os esquemas que você deseja incluir para classificação. Em default, todos os esquemas são incluídos.
Isso cria um trabalho em segundo plano que varre de forma incremental todas as tabelas do catálogo ou dos esquemas selecionados.
visualizar os resultados da classificação
Para view os resultados da classificação, clique em See results (Ver resultados ) ao lado do botão de alternância. Um painel é aberto, mostrando os resultados da classificação de todas as tabelas no catálogo.
Visão geral
A seção Visão geral mostra o número de tabelas que foram classificadas, bem como a distribuição de classes de dados confidenciais em todo o catálogo. Você pode filtrar os resultados por esquema, tabela ou classificação.
O painel é alimentado por visualizações que fornecem resultados com controle de acesso, o que significa que somente as linhas dos resultados da tabela às quais um usuário tem acesso de leitura serão retornadas a ele (consulte as Perguntas frequentes para obter mais detalhes).
Classificação log
A seção Registro de classificação mostra um gráfico de série temporal das classificações ao longo do tempo. Isso permite que você veja o classificações mais recentes e detalhamento por classe de dados confidenciais.
Ele também fornece uma tabela com detalhes para cada classificação, incluindo:
- Justificativa: O motivo pelo qual a classificação foi feita. Isso pode ser devido a uma detecção nos metadados ou no nome da coluna, uma detecção nos valores ou uma combinação de ambos.
- Pontuação da partida: a proporção aproximada de linhas que corresponderam à classificação.
- Valores de amostra: Uma amostra dos valores que corresponderam à classificação. Isso é útil para entender o contexto da classificação e verificar sua precisão.
- Ativo downstream: uma lista de ativos downstream que são afetados pela classificação, incluindo Job, Notebook, consultas e dashboards.
- Usuários ativos: o número de usuários ativos da tabela no intervalo de tempo fornecido.
Falhas de digitalização
A seção Falhas de verificação mostra quais tabelas não foram classificadas. Isso pode acontecer para uma variedade de motivos, e cada falha na tabela é acompanhada por uma mensagem de erro detalhada. Para obter ajuda para resolver esses erros, consulte as Perguntas frequentes.
Marcação e controles de governança
Os resultados da classificação de dados podem permitir controles de governança de várias maneiras, incluindo:
- Descobrimento de dados confidenciais: Os resultados da classificação podem ser consultados para descobrir dados confidenciais em seu catálogo e tomar as medidas adequadas.
- Segurança em nível de linha e coluna: as classificações podem produzir tags que podem ser usadas por políticas posteriores para reforçar a segurança em nível de linha e coluna usando o controle de acesso baseado em atributos (ABAC).
- Segurança em nível de tabela: os resultados da classificação podem ser usados para configurar grupos de usuários e permissões para restringir o acesso a tabelas e esquemas confidenciais.
Descubra dados confidenciais
Os resultados view no painel ajudam o senhor a entender onde existem dados confidenciais e como eles estão sendo usados no seu catálogo. O senhor pode usar essas informações para tomar as medidas adequadas, como notificar automaticamente os proprietários de mesas com uma solicitação para que removam ou corrijam as informações de identificação pessoal (PII) de suas mesas.
Segurança em nível de linha e coluna
A classificação de dados pode marcar automaticamente as tags sensíveis do sistema de uso de dados. Para fazer isso:
- Você deve estar inscrito na pré-visualização das Políticas de tags.
- Você deve ter privilégios
ASSIGN
sobre as políticas de tags do sistema (quaisquer tags que comecem com o prefixoclass.
). - Você deve ter privilégios
APPLY TAG
no catálogo, nos esquemas e nas tabelas em que as tags serão aplicadas.
Se você estiver inscrito na pré-visualização do ABAC, poderá usar as tags class.
e as funções de mascaramento em uma política do ABAC para mascarar automaticamente quaisquer dados marcados.
Por exemplo, você pode criar uma política que mascare números de previdência social para todos os usuários que não pertencem a determinado usuário. grupos.
Para saber mais sobre como se inscrever nas prévias de Tag Policies ou ABAC, entre em contato com seu representante account ou com o suporte Databricks.
Outra opção para reforçar a segurança em nível de coluna é aplicar máscaras de coluna a uma coluna marcada.
Segurança em nível de tabela
Você pode usar os resultados da classificação para implementar a segurança em nível de tabela usando grupos de usuários e permissões.
Por exemplo, você pode criar um grupo de usuários chamado confidential
e atribuí-lo a todas as tabelas que contêm name
classificações, e você pode criar um grupo chamado restricted
e atribuí-lo a todas as tabelas que contêm us_ssn
.
Perguntas frequentes
Quanto tempo leva a classificação de dados para ser executada?
O mecanismo de classificação depende do escaneamento inteligente para determinar quando escanear uma tabela. Você pode esperar isso novas tabelas e colunas em seu catálogo serão digitalizadas dentro de 24 horas após serem criadas.
Se você estiver enfrentando mais de 24 horas de atraso, entre em contato conosco em data-classification-feedback@databricks.com.
Quais são as permissões nas tabelas de resultados criadas?
A classificação de dados cria tabelas para armazenar resultados e erros (_result
e _errors
respectivamente), que por default
são acessíveis somente ao usuário que configurou a classificação.
Também são criadas visualizações dinâmicas sobre essas tabelas com controles de acesso em nível de linha aplicados, de modo que qualquer usuário que leia os resultados a partir dessas visualizações verá apenas as entradas correspondentes às tabelas das quais já tem propriedade ou acesso de leitura.
Algumas tabelas não foram classificadas; como faço para descobrir o que deu errado?
Em default, as falhas que ocorreram em tabelas individuais são ignoradas e tentadas novamente no dia seguinte. O senhor pode usar a página de erros view para ver a mensagem de erro exata que causou a falha na classificação.
SELECT * FROM <catalog_name>._data_classification.errors
WHERE schema_name = '<schema_name>' and table_name = '<table_name>'
A classificação dos dados suporta a visualização?
não são compatíveis. Se o view for baseado em tabelas existentes, a Databricks recomenda que o senhor classifique as tabelas subjacentes para verificar se elas contêm dados confidenciais.
Há suporte para visualização materializada e tabelas de transmissão.
A classificação de dados é compatível com os catálogos do Delta Sharing?
Não há suporte para catálogos compartilhados usando o Delta Sharing. Em vez disso, a Databricks recomenda o compartilhamento de esquemas e tabelas em um catálogo existente para classificar dados confidenciais.
Aulas suportadas
A tabela lista as classes suportadas pela Classificação de Dados:
Aula | Descrição |
---|---|
" cartão_de_crédito " | Número do cartão de crédito |
"e-mail" | Endereço de e-mail |
" código_ibano " | Número internacional de conta bancária (IBAN) |
" endereço_IP " | Endereço de protocolo da Internet (IPv4 ou IPv6) |
" localização " | Localização |
Nome " " | Nome de uma pessoa |
" número_de_telefone " | Número de telefone |
" número_do_banco dos EUA " | Número do banco dos EUA |
" us_driver_license " | Carteira de motorista dos EUA |
" us_it em " | Número de identificação de contribuinte individual dos EUA |
" us_passport " | Passaporte dos EUA |
" us_ssn " | Número do Seguro Social dos EUA |