Arquitetura de proteção contra exfiltração de dados

Esta página é uma arquitetura de referência com foco nos recursos para proteção contra exfiltração de dados em nível de rede na AWS. Cada seção descreve um controle, como identidade, governança do Unity Catalog, restrições de workspace, monitoramento e isolamento de rede específico da cloud, e links para o seu guia de implementação. Para os conceitos e as prioridades da camada de segurança que estão por trás desses controles, consulte Proteção Contra Exfiltração de Dados.

Para implantar o conjunto completo de controles como um único pacote, use o módulo Terraform da Arquitetura de Referência de Segurança da Databricks, que implementa a arquitetura de ambiente isolado de ponta a ponta. Consulte o módulo do Terraform da Arquitetura de Referência de Segurança da AWS.
Para configurar os controles individualmente, use o guia abaixo.

Identidade e controles de acesso

Controles baseados em identidade são a primeira linha de defesa contra exfiltração de dados. Sem autenticação forte e acesso confiável, a identidade fraca compromete os controles em nível de rede.

Login unificado com SSO

Aplicar SSO em todos os workspaces na conta Databricks usando o login unificado. Isso garante que os usuários se autentiquem por meio do seu provedor de identidade corporativo, em vez de utilizarem contas pessoais ou métodos sem SSO.

Habilite a autenticação multifator (MFA) no seu provedor de identidade para uma camada adicional de verificação.

Consulte Habilitar login unificado e Configurar SSO no Databricks.

Gerenciamento de identidade automatizado

Implementar o provisionamento SCIM para automatizar o gerenciamento do ciclo de vida do usuário. Isso garante que ex-funcionários sejam automaticamente desprovisionados e não possam acessar os workspaces após a saída.

Consulte Sincronize usuários e grupos do seu provedor de identidade usando SCIM.

Controles de acesso à rede

Restringir o acesso ao workspace e ao console da account a redes confiáveis:

Listas de acesso IP em nível de account : Controlam o acesso ao console da account. Consulte Configurar listas de acesso IP para o console da account.
Listas de acesso IP para workspaces: Controlam o acesso a workspaces individuais. Consulte Configurar listas de acesso IP para workspaces.
Conectividade privada: use o PrivateLink de entrada para eliminar totalmente o acesso público ao workspace. Consulte Configurar o PrivateLink de entrada para workspaces.

Controles de governança de dados

Controles de rede impedem caminhos de saída não autorizados, mas os controles de governança de dados garantem que mesmo os recursos de compute autorizados possam acessar apenas destinos de dados aprovados. Aplique estes controles independentemente de qual arquitetura de segurança de rede for implantada.

Controle de acesso padrão

Use os privilégios do Unity Catalog para restringir quem pode ler, gravar ou modificar cada catálogo, esquema, tabela e volume. Conceder os privilégios mínimos exigidos para cada função e grupo.

Os privilégios fluem hierarquicamente: uma concessão em um catálogo se aplica a todos os esquemas e tabelas dentro dele. Utilize isto para aplicar configurações default abrangentes e, em seguida, restringir o acesso em níveis inferiores para dados sensíveis.

Consulte Gerenciar privilégios no Unity Catalog.

Controle de acesso baseado em atributos (ABAC)

O ABAC governa o acesso a dados com base em tags anexadas a objetos de dados, e não apenas na identidade do objeto. Use o ABAC para aplicar políticas como "os usuários só podem consultar tabelas marcadas com pii=false" ou "usuários do grupo da UE não podem ler tabelas marcadas com region=US."

O ABAC escala melhor do que as concessões por objeto em ambientes grandes onde as convenções de tags já estão em vigor. Também combina bem com filtros de linhas e máscaras de colunas (abaixo).

Consulte Controle de acesso baseado em atributos no Unity Catalog.

Filtros de linhas e máscaras de colunas

Restringir a visibilidade do usuário em uma tabela:

Filtros de linha : aplicar uma função SQL que determina quais linhas um usuário pode consultar. Por exemplo, restringir uma tabela de vendas para que cada gerente regional veja apenas as linhas de sua região.
Máscaras de coluna : Permitem aplicar uma função SQL que transforma o valor de uma coluna antes que ele seja retornado ao usuário. Por exemplo, mascare números de cartão de crédito para XXXX-XXXX-XXXX-1234 para não usuários de finanças.

Filtros de linhas e máscaras de colunas são avaliados no momento da consulta, portanto, os usuários não podem contorná-los com SELECT *.

Consulte Filtros de linha e máscaras de coluna.

Unity Catalog: restrições administrativas

Restrinja a criação de recursos protegíveis de acesso a dados somente a administradores:

Credenciais de armazenamento : permitir apenas que administradores criem credenciais de armazenamento. Aplique políticas de acesso à cloud de privilégio mínimo (IAM roles, identidades gerenciadas) para cada credencial. Consulte Gerenciar credenciais de armazenamento.
Locais externos : Permitir apenas que administradores criem locais externos que mapeiem para caminhos de armazenamento em cloud. Consulte Gerenciar locais externos.
Conexões de banco de dados: Permitir que apenas administradores criem conexões com bancos de dados externos por meio da Federação Lakehouse. Consulte Gerenciar conexões para a Lakehouse Federation.
Credenciais de serviço : Permitir apenas que administradores criem credenciais de serviço para serviços externos cloud. Consulte Criar credenciais de serviço.

Conceder permissões aos usuários para usar artefatos de segurança aprovados em vez de criar novos. Isso impede que os usuários direcionem o compute para armazenamento ou endpoints não confiáveis.

Ligações de Workspace para catálogos

Vincule catálogos do Unity Catalog a workspaces específicos para evitar o acesso a dados entre ambientes. Por exemplo, para evitar que workspaces de desenvolvimento leiam dados de produção.

Consulte Vinculação de Catálogo de Workspace.

Políticas da conta de armazenamento

Implementar firewalls ou políticas de bucket em contas de armazenamento para aceitar tráfego apenas de destinos de origem aprovados:

Configure as políticas de bucket do S3 para permitir acesso somente da VPC da Databricks ou de endpoints de VPC específicos. Utilize chaves de condição para restringir o acesso com base na origem.
Crie IAM roles com permissões mínimas e políticas de confiança que limitem quais recursos do Databricks podem assumi-las.

Restrições do workspace

As configurações de administração do workspace controlam os caminhos de downloads e exportação de dados por meio da IU do Databricks. Desative essas configurações para impedir que os usuários extraiam dados pela interface do workspace.

Contexto	Risco mitigado
Desativar o download dos resultados do Notebook	Usuários que fazem o download de resultados de consultas para máquinas locais
Desativar downloads de arquivos de volume	Usuários fazendo download de arquivos de volume para máquinas locais
Desativar a exportação de Notebook e arquivos	A exportação de Notebook ou arquivos do workspace
Desativar download de resultados SQL	Download de resultados de queries SQL por usuários
Desativar download de artefato de execução do MLflow	Download de artefatos de experimento do MLflow pelos usuários
Desabilitar a área de transferência da tabela de resultados	Usuários copiando dados tabulares para a área de transferência

Contexto	Risco mitigado
Desativar o download dos resultados do Notebook	Usuários que fazem o download de resultados de consultas para máquinas locais
Desativar downloads de arquivos de volume	Usuários fazendo download de arquivos de volume para máquinas locais
Desativar a exportação de Notebook e arquivos	A exportação de Notebook ou arquivos do workspace
Desativar download de resultados SQL	Download de resultados de queries SQL por usuários
Desativar download de artefato de execução do MLflow	Download de artefatos de experimento do MLflow pelos usuários
Desabilitar a área de transferência da tabela de resultados	Usuários copiando dados tabulares para a área de transferência

Defina estas configurações no console administrativo do workspace, em configurações de segurança. Consulte Gerenciar seu workspace.

Monitoramento e detecção

Controles preventivos reduzem o risco de exfiltração de dados, mas o monitoramento detecta quando os controles falham ou quando invasores os ignoram.

Tabelas do sistema para monitoramento de auditoria

Use o Databricks para monitorar custos usando tabelas do sistema para monitorar padrões de acesso a dados. A referência da tabela do sistema de log de auditoria captura eventos do workspace, incluindo:

Autenticação do usuário e tentativas de acesso.
Operações de leitura e gravação de dados.
Alterações na configuração administrativa.
Uso de credenciais e acesso a locais externos.

Configure alertas para atividades suspeitas, como volumes de dados incomuns, acesso de locais inesperados ou tentativas de acessar recursos não autorizados.

Integração de logs nativo cloud

Ingerir logs específicos da nuvem para complementar as tabelas do sistema do Databricks:

Configure o AWS CloudTrail para capturar eventos de acesso S3, assunções de IAM role e logs de fluxo da VPC.

Correlacione logs nativos cloud com logs de auditoria do Databricks para visibilidade completa do movimento de dados em seu ambiente.

Arquitetura da AWS

Isolamento de rede

Implantar Databricks em uma Configurar uma VPC gerenciada pelo cliente com sub-redes privadas:

Habilitar Rede de plano de computação clássico para eliminar IPs públicos.
Configurar os grupos de segurança para restringir a saída apenas para destinos autorizados.
Utilize tabelas de rotas para evitar o acesso direto à internet.

Conectividade privada

Estabelecer conexões privadas a serviços da AWS e ao plano de controle do Databricks:

PrivateLink do plano de compute clássico : Conectar-se ao workspace e ao relé SCC. Consulte Configurar conectividade privada clássica ao Databricks.
PrivateLink de Entrada : Habilite o acesso do usuário sem a internet pública. Consulte Configurar o PrivateLink de entrada para workspaces.
VPC endpoints : Crie endpoint de gateway do S3 (sem custo) e endpoints de interface para STS e Kinesis.
Políticas de endpoint da VPC : Restringe o acesso apenas a recursos autorizados da AWS.

Controle de saída

Implantar um dispositivo de firewall de terceiros (como Palo Alto) integrado com o Balanceador de Carga de Gateway para inspecionar o tráfego de saída:

Configurar regras de firewall para destinos aprovados (por exemplo, PyPI, Maven e APIs externas).
Roteie o tráfego vinculado à internet (0.0.0.0/0) pelo firewall.
Direcionar o tráfego de serviço da AWS através de endpoints da VPC.

Políticas de acesso

Implementar acesso com privilégios mínimos usando IAM e políticas de bucket:

IAM roles: Crie roles com permissões mínimas e políticas de confiança que limitem quais recursos do Databricks podem assumi-las.
Políticas de bucket do S3 : permitir o acesso somente da VPC do Databricks ou de endpoints de VPC específicos. Utilize chaves de condição para restringir o acesso com base na origem.

Segurança serverless

Configure O que é controle de saída serverless? para controle de saída de compute serverless. Defina destinos permitidos usando intervalos de IP, FQDNs ou endpoints privados.

Veja também

- Arquiteturas de referência de rede
- Arquiteturas de segurança de rede (gerenciadas, reforçadas, isoladas).
- Segurança e compliance
- Controles de segurança e compliance além da rede.

Identidade e controles de acesso​

Controles de governança de dados​

Restrições do workspace​

Monitoramento e detecção​

Arquitetura da AWS​

Veja também​