Classificação de dados
Beta
Este recurso está em fase beta.
O catálogo de dados pode conter uma grande quantidade de dados, muitas vezes incluindo dados confidenciais conhecidos e desconhecidos. É fundamental que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam controlar e democratizar o acesso a esses dados.
Para resolver esse problema, a Classificação de Dados da Databricks classifica e marca automaticamente as tabelas em seu catálogo. Isso permite que você identifique dados confidenciais e aplique controles de governança aos resultados, utilizando ferramentas como políticas de controle de acesso baseado em atributos (ABAC) no Unity Catalog.
Com este recurso, é possível:
- Classificar dados : O mecanismo utiliza um sistema composto de " AI " para classificar automaticamente (e marcar) quaisquer tabelas em Unity Catalog.
- Otimize os custos por meio da digitalização inteligente : o sistema determina de forma inteligente quando digitalizar seus dados, aproveitando o Unity Catalog e o Data Intelligence Engine. Isso significa que a varredura é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
- Revisar classificações : esta pré-visualização fornece uma visualização prévia ( AI/BI dashboard ) para auxiliá-lo a visualizar os resultados da classificação e o impacto a jusante em todo o seu catálogo.
Para comentários ou perguntas, entre em contato conosco pelo e-mail data-classification-feedback@databricks.com.
A Classificação de Dados da Databricks utiliza um modelo de linguagem grande (LLM) hospedado pela Databricks para auxiliar na classificação. A Databricks implementa controles de segurança para proteger seus dados. Para obter mais informações, consulte Proteção de dados no servindo modelo e Databricks AI recurso confiança e segurança.
Requisitos
- É necessário que você tenha o serverless compute habilitado. Consulte Conecte-se a serverless compute .
- Para ativar a classificação de dados, você deve ter os privilégios
MANAGE
,CREATE SCHEMA
eSELECT
no catálogo. - A classificação de dados só é suportada em catálogos padrão.
Habilitar a classificação de dados
-
Navegue até qualquer catálogo e clique em Detalhes tab.
-
Clique no botão Classificação de dados para ativá-lo.
-
(Opcionalmente) Selecione os esquemas que você deseja incluir para classificação. Por default, todos os esquemas estão incluídos.
Isso cria uma tarefa em segundo plano que verifica incrementalmente todas as tabelas no catálogo ou nos esquemas selecionados.
visualizar resultados da classificação
Para visualizar os resultados da classificação do view, clique em “Ver resultados” ao lado do botão de alternância. Um painel é aberto, mostrando os resultados da classificação de todas as tabelas no catálogo.
Visão geral
A seção Visão geral mostra o número de tabelas que foram classificadas, bem como a distribuição de classes de dados confidenciais em todo o catálogo. Você pode filtrar os resultados por esquema, tabela ou classificação.
O painel é alimentado por visualizações que fornecem resultados com acesso controlado, o que significa que apenas as linhas dos resultados da tabela às quais o usuário tem acesso de leitura serão retornadas a ele (consulte as Perguntas frequentes para obter mais detalhes).
Classificação log
A seção Log de classificação exibe um gráfico de séries temporais das classificações ao longo do tempo. Isso permite que você veja o classificações mais recentes e detalhamento por classe de dados confidenciais.
Ele também fornece uma tabela com detalhes para cada classificação, incluindo:
- Justificativa: O motivo pelo qual a classificação foi feita. Isso pode ser devido a uma detecção nos metadados ou no nome da coluna, uma detecção nos valores ou uma combinação de ambos.
- Pontuação da partida: a proporção aproximada de linhas que corresponderam à classificação.
- Valores de amostra: Uma amostra dos valores que corresponderam à classificação. Isso é útil para entender o contexto da classificação e verificar sua precisão.
- Ativo downstream: uma lista de ativos downstream afetados pela classificação, incluindo tarefas, cadernos, consultas e painéis.
- Usuários ativos: o número de usuários ativos da tabela no intervalo de tempo fornecido.
Falhas de digitalização
A seção Falhas de verificação mostra quais tabelas não foram classificadas. Isso pode acontecer para uma variedade de motivos, e cada falha na tabela é acompanhada por uma mensagem de erro detalhada. Para obter ajuda para resolver esses erros, consulte as Perguntas frequentes.
Marcação e controles de governança
Os resultados da classificação de dados podem permitir controles de governança de várias maneiras, incluindo:
- Descoberta de dados confidenciais: os resultados da classificação podem ser consultados para descobrir dados confidenciais em seu catálogo e tomar as medidas adequadas.
- Segurança em nível de linha e coluna: as classificações podem produzir tags que podem ser usadas por políticas posteriores para reforçar a segurança em nível de linha e coluna usando o controle de acesso baseado em atributos (ABAC).
- Segurança em nível de tabela: os resultados da classificação podem ser usados para configurar grupos de usuários e permissões para restringir o acesso a tabelas e esquemas confidenciais.
Descubra dados confidenciais
Os resultados view no painel ajudam a compreender onde os dados confidenciais estão e como estão sendo utilizados no seu catálogo. É possível utilizar essas informações para tomar as medidas adequadas, como notificar automaticamente os proprietários da tabela com uma solicitação para remover ou corrigir informações de identificação pessoal (PII) da tabela.
Segurança em nível de linha e coluna
A classificação de dados pode automaticamente atribuir etiquetas de uso sensível de dados ao sistema. Para fazer isso:
- O senhor deve ter privilégios
ASSIGN
em tags governadas pelo sistema (quaisquer tags que comecem com o prefixoclass.
). - Você deve ter privilégios
APPLY TAG
no catálogo, nos esquemas e nas tabelas em que as tags serão aplicadas.
Se você ativou a versão beta do ABAC, poderá usar as tags class.
e as funções de mascaramento em uma política ABAC para mascarar automaticamente quaisquer dados marcados.
Por exemplo, você pode criar uma política que mascare números de previdência social para todos os usuários que não pertencem a determinado usuário. grupos.
Para habilitar os betas do ABAC, consulte Habilitar o ABAC
Outra opção para reforçar a segurança em nível de coluna é aplicar máscaras de coluna a uma coluna marcada.
Segurança em nível de tabela
Você pode usar os resultados da classificação para implementar a segurança em nível de tabela usando grupos de usuários e permissões.
Por exemplo, você pode criar um grupo de usuários chamado confidential
e atribuí-lo a todas as tabelas que contêm name
classificações, e você pode criar um grupo chamado restricted
e atribuí-lo a todas as tabelas que contêm us_ssn
.
Como lidar com falsos positivos
Se os dados estiverem marcados incorretamente, você poderá excluir manualmente a tag. A tag não será reaplicada em escaneamentos futuros.
visualizar despesas com classificação de dados
Para entender como a Classificação de Dados é cobrada, acesse a página de preços. É possível view ar despesas relacionadas à classificação de dados executando uma consulta ou visualizando o painel de uso.
visualizar o uso na tabela do sistema system.billing.usage
Para verificar as despesas de classificação de dados, use uma consulta semelhante à seguinte:
SELECT
usage_date,
identity_metadata.run_as AS run_as_user,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
identity_metadata.run_as
ORDER BY
usage_date DESC,
run_as_user;
visualizar o uso no painel de uso
Caso já possua um painel de uso configurado em workspace, é possível utilizá-lo para filtrar o uso selecionando o rótulo “Classificação de dados” em Projeto de origem de faturamento. Se você não tiver um painel de uso configurado, poderá importar um e aplicar a mesma filtragem. Para obter detalhes, consulte Painéis de uso.
Perguntas frequentes
Quanto tempo leva para executar a classificação de dados?
O mecanismo de classificação depende do escaneamento inteligente para determinar quando escanear uma tabela. Você pode esperar isso novas tabelas e colunas em seu catálogo serão digitalizadas dentro de 24 horas após serem criadas.
Se você estiver enfrentando mais de 24 horas de atraso, entre em contato conosco em data-classification-feedback@databricks.com.
Quais são as permissões nas tabelas de resultados criadas?
A classificação de dados cria tabelas para armazenar resultados e erros (_result
e _errors
, respectivamente), que, por default
, só são acessíveis ao usuário que configurou a classificação.
Também são criadas visualizações dinâmicas sobre essas tabelas com controles de acesso em nível de linha aplicados, de modo que quaisquer usuários que leiam resultados a partir dessas visualizações verão apenas entradas correspondentes às tabelas das quais já possuem propriedade ou acesso de leitura.
Algumas tabelas não foram classificadas; como faço para descobrir o que deu errado?
Por meio do default, as falhas ocorridas em tabelas individuais são ignoradas e repetidas no dia seguinte. É possível utilizar os erros view para visualizar a mensagem de erro exata que causou a falha na classificação.
SELECT * FROM <catalog_name>._data_classification.errors
WHERE schema_name = '<schema_name>' and table_name = '<table_name>'
A classificação de dados é compatível com a visualização?
A visualização e a visualização métricas não são suportadas. Se o view for baseado em tabelas existentes, Databricks recomenda classificar as tabelas subjacentes para verificar se elas contêm dados confidenciais.
Visão materializada e tabelas de transmissão são suportadas.
A classificação de dados é compatível com os catálogos Delta Sharing?
Os catálogos compartilhados usando o Delta Sharing não são suportados. Em vez disso, Databricks recomenda esquemas e tabelas compartilhados dentro de um catálogo existente para classificar dados confidenciais.
Aulas suportadas
A tabela lista as classes suportadas pela Classificação de Dados:
Aula | Descrição |
---|---|
" cartão_de_crédito " | Número do cartão de crédito |
" endereço_e-mail " | Endereço de e-mail |
" código_ibano " | Número de conta bancária internacional (IBAN) |
" endereço_IP " | Endereço de protocolo da Internet (IPv4 ou IPv6) |
" localização " | Localização |
Nome " " | Nome de uma pessoa |
" número_de_telefone " | Número de telefone |
" número_do_banco dos EUA " | Número do banco dos EUA |
" us_driver_license " | Carteira de motorista dos EUA |
" us_it em " | Número de identificação de contribuinte individual dos EUA |
" us_passport " | Passaporte dos EUA |
" us_ssn " | Número do Seguro Social dos EUA |