Pular para o conteúdo principal

Configurar a conectividade privada para os buckets de armazenamento do AWS S3

Esse recurso está em Public Preview. Para join essa visualização, entre em contato com a equipe Databricks account .

nota

A partir de 7 de outubro de 2024, o site Databricks começou a cobrar dos clientes os custos de rede incorridos pelo serverless compute recurso conectado a um recurso externo. O faturamento da rede sem servidor está sendo implementado em fases, o que pode resultar em mudanças graduais no faturamento. Para obter mais informações sobre faturamento, consulte Entenda Databricks serverless custos de rede.

Esta página explica como configurar a conectividade privada de serverless compute para seus buckets na região AWS S3 usando a interface de usuário do console Databricks account .

Conectividade privada com buckets de armazenamento do AWS S3.

A configuração da conectividade privada para serverless compute fornece:

  • Uma conexão dedicada e privada: Garante acesso seguro e isolado entre seu espaço de trabalho serverless e AWS S3, limitando o acesso apenas a conexões autorizadas.
  • Mitigação aprimorada da exfiltração de dados: Embora o serverless compute com Unity Catalog forneça proteção integrada contra a exfiltração de dados, o PrivateLink acrescenta uma camada extra de defesa de rede. Usando o AWS PrivateLink, seu tráfego de dados permanece inteiramente na rede da AWS, nunca atravessando a Internet pública. Essa arquitetura, combinada com o acesso controlado por meio do endpoint VPC, reduz a superfície de ataque para a exfiltração de dados.

Requisitos

  • O site workspace está no plano Enterprise.
  • O senhor é o administrador account de seu Databricks account.
  • O senhor tem pelo menos um workspace funcional usando serverless compute.
  • O senhor tem as devidas permissões AWS IAM para criar e modificar as políticas de bucket S3 e criar o endpoint VPC.
  • Cada Databricks account pode ter até 10 NCCs por região.
  • Cada região pode ter 30 pontos de extremidade privados, distribuídos conforme necessário em 1 a 10 NCCs.
  • Cada NCC pode ser conectado a até 50 espaços de trabalho.
  • Cada NCC pode ter uma regra de endpoint privado do AWS S3.
  • Cada regra de endpoint privado pode incluir até 100 buckets S3.

Etapa 1: Criar um objeto de configuração de conectividade de rede (NCC)

O senhor pode pular esta etapa se tiver um NCC existente na mesma região e AWS account que deseja usar.

  1. No console da conta, clique em Recursos da nuvem .
  2. Selecione a rede tab.
  3. Selecione Adicionar configuração de conectividade de rede .
  4. Digite um nome para o NCC.
  5. Escolha a região. Isso deve corresponder à sua região workspace.
  6. Clique em Adicionar .

Etapa 2: criar um endpoint de interface do AWS S3

important

Não habilite o endpoint privado até que o senhor tenha concluído a Etapa 3.

  1. Navegue até a seção Private endpoint rules (Regras de endpoint privado ) em seu NCC.
  2. Selecione Add private endpoint rule (Adicionar regra de ponto de extremidade privado ).
  3. Selecione S3 bucket em Resource type (Tipo de recurso ).
  4. Defina as configurações da regra:
    • serviço de endpoint: Esse campo é preenchido automaticamente para estabelecer a conexão com o recurso de destino do seu endpoint privado.
    • S3 Nomes de bucket: Digite os nomes dos buckets para o recurso de destino. O bucket deve existir na mesma região do AWS que o NCC e o serviço de endpoint.

Etapa 3: Atualize sua política de bucket S3 de acordo para aceitar o tráfego do endpoint da VPC

Para permitir que o serverless compute acesse seu bucket S3 por meio do endpoint privado, talvez seja necessário atualizar a política do bucket S3 em seu AWS account.

Um exemplo de cláusula Allow que você pode precisar adicionar é mostrado:

JSON
{
"Sid": "AllowVpcEndpointAccess",
"Effect": "Allow",
"Principal": "*",
"Action": "s3:*",
"Resource": ["arn:aws:s3:::{bucket-name}", "arn:aws:s3:::{bucket-name}/*"],
"Condition": {
"StringEquals": {
"aws:SourceVpce": "vpce-12345" // This is the VPC endpoint returned in Step 2
}
}
}

Se, em vez disso, a política de bucket estiver configurada com uma cláusula Deny, talvez seja necessário adicionar uma condição de exceção para o ID do endpoint VPC retornado na Etapa 2. Um exemplo de condição é o mostrado:

JSON
  {
...
"Effect": "Deny",
...
"Condition": {
"StringNotEquals": {
"aws:SourceVpce": "vpce-12345"
}
}
}
nota

Esse exemplo de política não inclui outros endpoints públicos ou privados que o senhor possa querer incluir na lista de permissões, como IPs de VPNs corporativas.

Atualize a interface do usuário ou faça uma chamada para API para confirmar que o status da regra foi alterado para ESTABLISHED.

Etapa 4: Ativar a regra endpoint privada

  1. Clique no ícone do menu kebab.
  2. Clique em Atualizar regra .
  3. Selecione Habilitar regra .
important

Esta etapa encaminha o tráfego para todos os buckets S3 configurados na regra endpoint privada por meio do PrivateLink para qualquer workspace anexado ao NCC. Antes de continuar, verifique se o senhor concluiu a Etapa 3 para permitir o acesso ao bucket S3 a partir do endpoint da VPC.

Etapa 5: Anexar o NCC a um ou mais espaços de trabalho

Esta etapa associa a conectividade privada configurada ao espaço de trabalho serverless. Pule esta etapa se o site workspace já estiver conectado ao NCC desejado. Para anexar o NCC a um workspace:

  1. Navegue até o espaço de trabalho na navegação à esquerda.
  2. Selecione um site existente workspace.
  3. Selecione Atualizar espaço de trabalho .
  4. Em Network Connectivity Configuration , selecione dropdown e escolha o NCC que o senhor criou.
  5. Repita o procedimento para todos os espaços de trabalho aos quais o NCC deve ser aplicado.

Etapa 6: Verificar a conectividade

Para testar a conectividade, registre o bucket como um local externo.

  1. registrar seu bucket como um local externo. Veja os locais externos.
  2. Abra o editor SQL
  3. execução:
CREATE TABLE {catalog}.{schema}.test_connectivity LOCATION 's3://{your-s3-bucket}/test_connectivity'

Pode levar dez minutos para que a conexão seja totalmente estabelecida.

nota

Se sua política de rede restringir o acesso externo, as conexões diretas com os FQDNs do seu bucket do AWS S3, como {your-s3-bucket}.s3.{region}.amazonaws.com, serão bloqueadas. Você deve adicionar explicitamente os FQDNs necessários aos domínios permitidos da sua política de rede para permitir esse acesso. Consulte gerenciar políticas de rede para serverless controle de saída.

O acesso aos seus buckets S3 deve usar um endpoint regional como {your-s3-bucket}.s3.{region}.amazonaws.com. Não há suporte para endpoints legados, como {your-s3-bucket}.s3.amazonaws.com.

O que vem a seguir

  • Configure a conectividade privada para AWS recurso : use o PrivateLink para estabelecer acesso seguro e isolado a AWS serviço a partir de sua rede virtual, ignorando a Internet pública. Consulte Configurar conectividade privada para recurso em seu site VPC.
  • Configurar um firewall para acesso serverless compute : Implemente um firewall para restringir e proteger as conexões de rede de entrada e saída de seus ambientes serverless compute . Consulte Configurar um firewall para acesso serverless compute.
  • Entenda os custos de transferência de dados e conectividade : A transferência de dados e a conectividade referem-se à movimentação de dados para dentro e para fora dos ambientes serverless. As tarifas de rede para serverless produto se aplicam apenas aos clientes que usam serverless compute. Veja Entenda Databricks serverless custos de rede.