Pular para o conteúdo principal

Classificação de dados

info

Visualização

Este recurso está em Visualização Pública.

Esta página descreve como usar a Classificação de Dados Databricks no Unity Catalog para classificar e tag automaticamente dados confidenciais no seu catálogo.

Um catálogo de dados pode ter uma grande quantidade de dados, muitas vezes contendo dados confidenciais conhecidos e desconhecidos. É essencial que as equipes de dados entendam que tipo de dados confidenciais existem em cada tabela para que possam governar e democratizar o acesso a esses dados.

Para resolver esse problema, Databricks Data Classification usa um agente AI para classificar e tag automaticamente tabelas no seu catálogo. Isso permite que você descubra dados confidenciais e aplique controles de governança sobre os resultados, usando ferramentas como o controle de acesso baseado em atributos (ABAC) do Unity Catalog. Para obter uma lista de tags suportadas, consulte tagsde classificação suportadas.

Com este recurso, é possível:

  • Classificar dados : o mecanismo usa um sistema AI de agente para classificar e tag automaticamente quaisquer tabelas no Unity Catalog.
  • Otimize custos por meio de varredura inteligente : o sistema determina de forma inteligente quando escanear seus dados, aproveitando o Unity Catalog e o Data Intelligence Engine. Isso significa que a digitalização é incremental e otimizada para garantir que todos os novos dados sejam classificados sem configuração manual.
  • Revisar e proteger dados confidenciais : a exibição de resultados auxilia na visualização de resultados de classificação e na proteção de dados confidenciais por tags e na criação de políticas de controle de acesso para cada classe.
importante

A Classificação de Dados Databricks usa armazenamentodefault para armazenar resultados de classificação. Você não será cobrado pelo armazenamento.

A Classificação de Dados do Databricks usa um modelo de linguagem grande (LLM) para auxiliar na classificação.

Requisitos

nota

A classificação de dados é um recurso de visualização em nível de workspacee só pode ser gerenciada por um administrador workspace ou account . Para obter instruções, consulte gerenciar visualizações Databricks.

importante

O modelo que alimenta esta função é disponibilizado através das APIs do Mosaic AI Model Serving Foundation Model. Consulte Licenças e termos de desenvolvedor de modelo aplicáveis para obter mais informações.

  • Seu workspace deve ter computeserverless disponível (habilitada por default em espaços de trabalho com Unity Catalog).
  • Para habilitar a classificação de dados, você deve ser o proprietário do catálogo ou ter privilégios USE CATALOG e MANAGE nele.
  • Para habilitar tags automáticas para um catálogo, você deve ter USE CATALOG no catálogo, APPLY TAG no catálogo e ASSIGN na tag que está sendo aplicada.
  • Para view a tabela de resultados, você deve ter as seguintes permissões: USE CATALOG e USE SCHEMA, além de SELECT na tabela. Veja a tabela do sistema de resultados.
nota

Por default, apenas os administradores account têm permissões MANAGE e ASSIGN nas tags regidas pelo sistema de classificação de dados. Os administradores de contas podem conceder MANAGE e ASSIGN para tags governadas individuais a outros usuários, entidades de serviço ou grupos. Consulte a seção sobre gerenciamento de permissões em tagscontroladas.

Usar classificação de dados

Para usar a classificação de dados em um catálogo:

  1. Navegue até o catálogo e clique na tab Detalhes .

    Detalhes tab para a página do catálogo no Catalog Explorer.

  2. Clique no botão Classificação de dados para ativá-lo.

  3. A caixa de diálogo Habilitar classificação de dados é exibida. Por default, todos os esquemas são incluídos. Para incluir apenas alguns esquemas, selecione-os no menu dropdown Esquemas a serem incluídos .

    Configurações modais para classificação de dados.

  4. Clique em Habilitar .

Isso cria uma tarefa em segundo plano que verifica incrementalmente todas as tabelas no catálogo ou nos esquemas selecionados.

O mecanismo de classificação depende de varredura inteligente para determinar quando varrer uma tabela. Novas tabelas e colunas em um catálogo geralmente são digitalizadas dentro de 24 horas após sua criação.

visualizar resultados da classificação

Para view os resultados da classificação, clique em Ver resultados ao lado do botão de alternância.

Veja o botão de resultados para classificação de dados.

Uma página de resultados é aberta, mostrando os resultados da classificação para todas as tabelas no catálogo. Para selecionar um catálogo diferente, use o seletor no canto superior esquerdo da página. Um SQL warehouse serverless é necessário e aparece no canto superior direito da página.

A página de resultados lista todas as tags de classificação que foram identificadas no catálogo. Todas as políticas ABAC existentes que fazem referência às tags do sistema de classificação de dados (class.xx) aparecem na tabela.

Página de resultados mostrando a tabela de classes detectadas.

Para revisar os resultados de uma tag de classificação específica, clique em Revisar na coluna mais à direita da linha correspondente.

Resultados mostrando colunas com classificações detectadas.

Um painel é exibido, exibindo as tabelas para as quais a classificação de dados detectou a tag de classificação com alta confiança. Revise as tabelas, colunas e valores de amostra. Os valores de amostra só aparecem se você tiver acesso à tabela de resultados. Veja a tabela do sistema de resultados.

Se as colunas identificadas corresponderem às suas expectativas, você poderá habilitar tags automáticas para a tag de classificação deste catálogo. Quando as tags automáticas estão ativadas, todas as detecções existentes e futuras dessa classificação são tags.

Para ativar as etiquetas automáticas, desative a opção tag automática com ... . Você deve ter USE CATALOG no catálogo, APPLY TAG no catálogo e ASSIGN na tag que está sendo aplicada. Você poderá desativar as tags automáticas posteriormente usando a mesma opção. Ao desativar as tags, nenhuma tags futura será aplicada, mas tags existentes não serão removidas.

nota

Quando você habilita tags automáticas, tags não são preenchidas imediatamente. Eles serão preenchidos na próxima verificação, que deverá entrar em vigor em 24 horas. Classificações subsequentes serão marcadas imediatamente.

A tabela do sistema de resultados

A classificação de dados cria uma tabela de sistema chamada system.data_classification.results para armazenar resultados que, por default são acessíveis somente ao administrador account . O administrador account pode compartilhar esta tabela. A tabela só fica acessível quando você usa compute serverless . Para obter detalhes sobre esta tabela, consulte Referência da tabela do sistema de classificação de dados.

importante

A tabela de resultados system.data_classification.results contém todos os resultados de classificação em todo o metastore e inclui valores de amostra de tabelas em cada catálogo. Você deve compartilhar esta tabela somente com usuários que tenham o privilégio de ver os resultados da classificação em todo o metastore, incluindo valores de amostra.

As seguintes permissões são necessárias para view a tabela de resultados: USE CATALOG e USE SCHEMA, além de SELECT na tabela. Usuários com acesso MANAGE ou SELECT a um catálogo podem ver resultados na página, mas não podem ver valores de amostra.

Configurar controles de governança com base nos resultados da classificação de dados

Mascarar uso de dados confidenciais em uma política ABAC

A Databricks recomenda usar o controle de acesso baseado em atributos (ABAC) do Unity Catalog para criar controles de governança com base nos resultados da classificação de dados.

Para criar uma política, clique em Nova política . O formulário de política é pré-preenchido para mascarar colunas com a tag de classificação que está sendo revisada. Para mascarar os dados, especifique qualquer função de mascaramento registrada no Unity Catalog e clique em Salvar .

Você também pode criar uma política que abranja diversas tags de classificação, alterando a coluna Quando para atende à condição e fornecendo diversas tags.

Por exemplo, para criar uma política chamada "Confidencial" que mascara qualquer nome, email ou número de telefone, defina a condição meets como has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number").

Descoberta e exclusão do GDPR

Este exemplo de Notebook mostra como você pode usar a classificação de dados para auxiliar na descoberta e exclusão de dados para compliance GDPR .

Descoberta e exclusão GDPR usando o Notebook de classificação de dados

Abrir notebook em uma nova aba

Como lidar com tags incorretas

Se os dados estiverem marcados incorretamente, você pode remover a tag manualmente. A tag não será reaplicada em verificações futuras.

Para remover uma tag usando a interface do usuário, navegue até a tabela no Catalog Explorer e edite as tags da coluna.

Para remover uma tag usando SQL:

SQL
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Erros de digitalização

Se ocorrer algum erro durante a verificação, um botão Erros aparecerá no canto superior direito da tabela de resultados.

Página de resultados com botão Erros no canto superior direito da tabela.

Clique no botão para exibir as tabelas que falharam na verificação e as mensagens de erro associadas.

Erros de verificação da tabela de classificação de dados.

Por default, falhas que ocorreram em tabelas individuais são ignoradas e repetidas no dia seguinte.

visualizar despesas com classificação de dados

Para entender como a Classificação de Dados é cobrada, consulte a página de preços. Você pode view despesas relacionadas à Classificação de Dados executando uma consulta ou visualizando o painel de uso.

nota

A digitalização inicial é mais custosa do que as digitalizações subsequentes no mesmo catálogo, pois essas digitalizações são incrementais e normalmente geram custos mais baixos.

visualizar o uso na tabela do sistema system.billing.usage

Você pode consultar as despesas de classificação de dados de system.billing.usage. Os campos created_by e catalog_id podem ser usados opcionalmente para detalhar os custos:

  • created_byIncluir para visualizar os custos por usuário que iniciou o uso.
  • catalog_idInclua para visualizar os custos por catálogo. O ID do catálogo é mostrado na tabela system.data_classification.results .

Exemplo de consulta para os últimos 30 dias:

SQL
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;

Para calcular o custo total em dólares, join com system.billing.list_prices. A consulta de exemplo a seguir usa um parâmetro nomeado :add_on_rate como um multiplicador no preço de lista. Defina como 1 para usar o preço de tabela diretamente ou para um valor menor que 1 para refletir um desconto negociado (por exemplo, 0.9 para um desconto de 10%).

Exemplo de consulta para o custo total em dólares nos últimos 30 dias:

SQL
SELECT
u.usage_date,
SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
ON lp.sku_name = u.sku_name
WHERE
u.billing_origin_product = 'DATA_CLASSIFICATION'
AND u.usage_end_time >= lp.price_start_time
AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
u.usage_date
ORDER BY
u.usage_date DESC;

visualizar o uso no painel de uso

Caso já possua um painel de uso configurado em workspace, é possível utilizá-lo para filtrar o uso selecionando o rótulo “Classificação de dados” em Projeto de origem de faturamento. Se você não tiver um painel de uso configurado, poderá importar um e aplicar a mesma filtragem. Para obter detalhes, consulte Painéis de uso.

tagsde classificação suportadas

Para obter uma lista completa das tags suportadas, organizadas por tags globais, tags regionais e estruturas compliance (PII, GDPR, HIPAA, DPDPA), consulte tagsde classificação suportadas.

Limitações

  • view e métricas view não são suportadas. Se a view for baseada em tabelas existentes, Databricks recomenda classificar as tabelas subjacentes para verificar se elas contêm dados confidenciais.