Arquitetura de proteção contra exfiltração de dados
Esta página é uma arquitetura de referência com foco nos recursos para proteção contra exfiltração de dados em nível de rede na AWS. Cada seção descreve um controle, como identidade, governança do Unity Catalog, restrições de workspace, monitoramento e isolamento de rede específico da cloud, e links para o seu guia de implementação. Para os conceitos e as prioridades da camada de segurança que estão por trás desses controles, consulte Proteção Contra Exfiltração de Dados.
- Para implantar o conjunto completo de controles como um único pacote, use o módulo Terraform da Arquitetura de Referência de Segurança da Databricks, que implementa a arquitetura de ambiente isolado de ponta a ponta. Consulte o módulo do Terraform da Arquitetura de Referência de Segurança da AWS.
- Para configurar os controles individualmente, use o guia abaixo.
Identidade e controles de acesso
Controles baseados em identidade são a primeira linha de defesa contra exfiltração de dados. Sem autenticação forte e acesso confiável, a identidade fraca compromete os controles em nível de rede.
Login unificado com SSO
Aplicar SSO em todos os workspaces na conta Databricks usando o login unificado. Isso garante que os usuários se autentiquem por meio do seu provedor de identidade corporativo, em vez de utilizarem contas pessoais ou métodos sem SSO.
Habilite a autenticação multifator (MFA) no seu provedor de identidade para uma camada adicional de verificação.
Consulte Habilitar login unificado e Configurar SSO no Databricks.
Gerenciamento de identidade automatizado
Implementar o provisionamento SCIM para automatizar o gerenciamento do ciclo de vida do usuário. Isso garante que ex-funcionários sejam automaticamente desprovisionados e não possam acessar os workspaces após a saída.
Consulte Sincronize usuários e grupos do seu provedor de identidade usando SCIM.
Controles de acesso à rede
Restringir o acesso ao workspace e ao console da account a redes confiáveis:
- Listas de acesso IP em nível de account : Controlam o acesso ao console da account. Consulte Configurar listas de acesso IP para o console da account.
- Listas de acesso IP para workspaces: Controlam o acesso a workspaces individuais. Consulte Configurar listas de acesso IP para workspaces.
- Conectividade privada : Use o PrivateLink para eliminar inteiramente o acesso público ao workspace. Consulte Configurar o PrivateLink de Entrada.
Controles de governança de dados
Controles de rede impedem caminhos de saída não autorizados, mas os controles de governança de dados garantem que mesmo os recursos de compute autorizados possam acessar apenas destinos de dados aprovados. Aplique estes controles independentemente de qual arquitetura de segurança de rede for implantada.
Controle de acesso padrão
Use os privilégios do Unity Catalog para restringir quem pode ler, gravar ou modificar cada catálogo, esquema, tabela e volume. Conceder os privilégios mínimos exigidos para cada função e grupo.
Os privilégios fluem hierarquicamente: uma concessão em um catálogo se aplica a todos os esquemas e tabelas dentro dele. Utilize isto para aplicar configurações default abrangentes e, em seguida, restringir o acesso em níveis inferiores para dados sensíveis.
Consulte Gerenciar privilégios no Unity Catalog.
Controle de acesso baseado em atributos (ABAC)
O ABAC governa o acesso a dados com base em tags anexadas a objetos de dados, e não apenas na identidade do objeto. Use o ABAC para aplicar políticas como "os usuários só podem consultar tabelas marcadas com pii=false" ou "usuários do grupo da UE não podem ler tabelas marcadas com region=US."
O ABAC escala melhor do que as concessões por objeto em ambientes grandes onde as convenções de tags já estão em vigor. Também combina bem com filtros de linhas e máscaras de colunas (abaixo).
Consulte Controle de acesso baseado em atributos no Unity Catalog.
Filtros de linhas e máscaras de colunas
Restringir a visibilidade do usuário em uma tabela:
- Filtros de linha : aplicar uma função SQL que determina quais linhas um usuário pode consultar. Por exemplo, restringir uma tabela de vendas para que cada gerente regional veja apenas as linhas de sua região.
- Máscaras de coluna : Permitem aplicar uma função SQL que transforma o valor de uma coluna antes que ele seja retornado ao usuário. Por exemplo, mascare números de cartão de crédito para
XXXX-XXXX-XXXX-1234para não usuários de finanças.
Filtros de linhas e máscaras de colunas são avaliados no momento da consulta, portanto, os usuários não podem contorná-los com SELECT *.
Consulte Filtros de linha e máscaras de coluna.
Unity Catalog: restrições administrativas
Restrinja a criação de recursos protegíveis de acesso a dados somente a administradores:
- Credenciais de armazenamento : permitir apenas que administradores criem credenciais de armazenamento. Aplique políticas de acesso à cloud de privilégio mínimo (IAM roles, identidades gerenciadas) para cada credencial. Consulte Gerenciar credenciais de armazenamento.
- Locais externos : Permitir apenas que administradores criem locais externos que mapeiem para caminhos de armazenamento em cloud. Consulte Gerenciar locais externos.
- Conexões de banco de dados: Permitir que apenas administradores criem conexões com bancos de dados externos por meio da Federação Lakehouse. Consulte Gerenciar conexões para a Lakehouse Federation.
- Credenciais de serviço : Permitir apenas que administradores criem credenciais de serviço para serviços externos cloud. Consulte Criar credenciais de serviço.
Conceder permissões aos usuários para usar artefatos de segurança aprovados em vez de criar novos. Isso impede que os usuários direcionem o compute para armazenamento ou endpoints não confiáveis.
Ligações de Workspace para catálogos
Vincule catálogos do Unity Catalog a workspaces específicos para evitar o acesso a dados entre ambientes. Por exemplo, para evitar que workspaces de desenvolvimento leiam dados de produção.
Consulte Vinculação de Catálogo de Workspace.
Políticas da conta de armazenamento
Implementar firewalls ou políticas de bucket em contas de armazenamento para aceitar tráfego apenas de destinos de origem aprovados:
- Configure as políticas de bucket do S3 para permitir acesso somente da VPC da Databricks ou de endpoints de VPC específicos. Utilize chaves de condição para restringir o acesso com base na origem.
- Crie IAM roles com permissões mínimas e políticas de confiança que limitem quais recursos do Databricks podem assumi-las.
Restrições do workspace
As configurações de administração do workspace controlam os caminhos de downloads e exportação de dados por meio da IU do Databricks. Desative essas configurações para impedir que os usuários extraiam dados pela interface do workspace.
Contexto | Risco mitigado |
|---|---|
Desativar o download dos resultados do Notebook | Usuários que fazem o download de resultados de consultas para máquinas locais |
Desativar downloads de arquivos de volume | Usuários fazendo download de arquivos de volume para máquinas locais |
Desativar a exportação de Notebook e arquivos | A exportação de Notebook ou arquivos do workspace |
Desativar download de resultados SQL | Download de resultados de queries SQL por usuários |
Desativar download de artefato de execução do MLflow | Download de artefatos de experimento do MLflow pelos usuários |
Desabilitar a área de transferência da tabela de resultados | Usuários copiando dados tabulares para a área de transferência |
Defina estas configurações no console administrativo do workspace, em configurações de segurança. Consulte Gerenciar seu workspace.
Monitoramento e detecção
Controles preventivos reduzem o risco de exfiltração de dados, mas o monitoramento detecta quando os controles falham ou quando invasores os ignoram.
Tabelas do sistema para monitoramento de auditoria
Use o Databricks para monitorar custos usando tabelas do sistema para monitorar padrões de acesso a dados. A referência da tabela do sistema de log de auditoria captura eventos do workspace, incluindo:
- Autenticação do usuário e tentativas de acesso.
- Operações de leitura e gravação de dados.
- Alterações na configuração administrativa.
- Uso de credenciais e acesso a locais externos.
Configure alertas para atividades suspeitas, como volumes de dados incomuns, acesso de locais inesperados ou tentativas de acessar recursos não autorizados.
Integração de logs nativo cloud
Ingerir logs específicos da nuvem para complementar as tabelas do sistema do Databricks:
- Configure o AWS CloudTrail para capturar eventos de acesso S3, assunções de IAM role e logs de fluxo da VPC.
Correlacione logs nativos cloud com logs de auditoria do Databricks para visibilidade completa do movimento de dados em seu ambiente.
Arquitetura da AWS
Isolamento de rede
Implantar Databricks em uma Configurar uma VPC gerenciada pelo cliente com sub-redes privadas:
- Habilitar Rede de plano de computação clássico para eliminar IPs públicos.
- Configurar os grupos de segurança para restringir a saída apenas para destinos autorizados.
- Utilize tabelas de rotas para evitar o acesso direto à internet.
Conectividade privada
Estabelecer conexões privadas a serviços da AWS e ao plano de controle do Databricks:
- PrivateLink do plano de compute clássico : Conectar-se ao workspace e ao relé SCC. Consulte Configurar conectividade privada clássica ao Databricks.
- Inbound PrivateLink : permitir o acesso do usuário sem a internet pública. Consulte Configurar o PrivateLink de Entrada.
- VPC endpoints : Crie endpoint de gateway do S3 (sem custo) e endpoints de interface para STS e Kinesis.
- Políticas de endpoint da VPC : Restringe o acesso apenas a recursos autorizados da AWS.
Controle de saída
Implantar um dispositivo de firewall de terceiros (como Palo Alto) integrado com o Balanceador de Carga de Gateway para inspecionar o tráfego de saída:
- Configurar regras de firewall para destinos aprovados (por exemplo, PyPI, Maven e APIs externas).
- Roteie o tráfego vinculado à internet (
0.0.0.0/0) pelo firewall. - Direcionar o tráfego de serviço da AWS através de endpoints da VPC.
Políticas de acesso
Implementar acesso com privilégios mínimos usando IAM e políticas de bucket:
- IAM roles: Crie roles com permissões mínimas e políticas de confiança que limitem quais recursos do Databricks podem assumi-las.
- Políticas de bucket do S3 : permitir o acesso somente da VPC do Databricks ou de endpoints de VPC específicos. Utilize chaves de condição para restringir o acesso com base na origem.
Segurança serverless
Configure O que é controle de saída serverless? para controle de saída de compute serverless. Defina destinos permitidos usando intervalos de IP, FQDNs ou endpoints privados.
Veja também
-
- Arquiteturas de referência de rede
- Arquiteturas de segurança de rede (gerenciadas, reforçadas, isoladas).
-
- Segurança e compliance
- Controles de segurança e compliance além da rede.