Pular para o conteúdo principal

Configure a conectividade privada clássica com o Databricks.

Esta página fornece os passos de configuração para habilitar a conectividade privada clássica do plano compute (back-end) para AWS PrivateLink.

Configurar uma conexão PrivateLink clássica no plano compute oferece benefícios essenciais de segurança e compliance para seu ambiente de processamento de dados:

  • Segurança aprimorada : Impede que seus clusters Databricks se comuniquem com o plano de controle pela internet pública, isolando suas cargas de trabalho de dados das redes públicas.
  • Requisitos de conformidade : Ajuda a atender aos rigorosos requisitos compliance regulamentar e corporativa que exigem que todo o tráfego interno cloud permaneça em uma rede privada.
  • Controle de exfiltração de dados : Ao proteger a conexão do plano compute que processa ativamente os dados, você adiciona uma poderosa camada de proteção contra a exfiltração de dados.

Visão geral da arquitetura

O PrivateLink do plano compute clássico ( compute clássica para plano de controle) conecta o recurso compute clássico Databricks em uma VPC do cliente ao serviço principal workspace . O Classic compute conecta-se ao plano de controle para APIs REST Databricks e retransmissão de conectividade segura cluster .

Consulte Configurar a conectividade privada clássica com o Databricks.

Requisitos

  • Sua conta do Databricks está no nível de preço Enterprise.
  • Seu workspace Databricks deve usar uma VPC gerenciada pelo cliente. Não é possível converter um workspace existente de uma VPC Databricks-gerenciar para uma VPC customer-gerenciar. Consulte Configurar uma VPCde gerenciamento de clientes.
  • Seu workspace Databricks deve usar conectividade cluster segura. Para adicionar o PrivateLink clássico do plano compute a um workspace mais antigo que não usa conectividade cluster segura, entre em contato com a equipe da sua account Databricks .
  • O senhor deve ter todas as permissões necessárias em AWS para configurar um Databricks workspace e criar um novo endpoint VPC para o seu workspace.

Melhores práticas

A Databricks recomenda o seguinte para uma configuração resiliente e gerenciável:

  • Compartilhar endpoint VPC : Você pode compartilhar um endpoint VPC clássico entre vários espaços de trabalho que usam a mesma VPC de gerenciamento de clientes, pois são recursos em nível VPC .
  • Sub-rede separada para endpoints VPC : Crie uma sub-rede dedicada para endpoints VPC para seguir o princípio do menor privilégio e simplificar o gerenciamento da rede.
  • Grupos de segurança separados : Utilize grupos de segurança distintos para compute clássica e endpoints VPC para impor controles de acesso granulares.
  • Planeje o dimensionamento da rede com cuidado : verifique se sua VPC e sub-redes têm espaço de endereço IP suficiente. Consulte Configurar uma VPCde gerenciamento de clientes.

Etapa 1: Configurar objetos de rede do AWS

Você pode usar o AWS Management Console para criar esses objetos ou automatizar o processo com ferramentas como o provedor Terraform para redes.

Configurar as definições da VPC

  1. Se ainda não o fez, configure uma VPC para seu workspace. Você pode reutilizar uma VPC de outro workspace. Para criar uma VPC, consulte Configurar uma VPCde gerenciamento de clientes. Ao atualizar um workspace para o PrivateLink, verifique se ele já utiliza uma VPC de gerenciamento de clientes.
  2. Verifique se sua VPC tem tanto o nome de host DNS quanto a resolução de DNS habilitados.
  3. Selecione um bloco CIDR IPv4 para sua VPC com uma máscara de rede de pelo menos /25.

Configurar ACLs de rede

O Databricks exige que as ACLs de rede em nível de sub-rede adicionem 0.0.0.0/0 à sua lista de permissões. Para controlar o tráfego de saída, utilize um firewall de saída ou um dispositivo proxy para bloquear a maior parte do tráfego, mas permita os URLs aos quais o Databricks precisa se conectar. Consulte Configurar um firewall e acesso de saída.

Criar sub-rede de endpoint VPC (recomendado)

  1. Crie e configure uma sub-rede VPC extra (opcional):
    • Crie uma sub-rede dedicada para seu endpoint VPC , incluindo o endpoint VPC do PrivateLink do plano compute e também qualquer endpoint VPC opcional para outros serviços AWS. Essa sub-rede é a que você seleciona ao criar o endpoint VPC , garantindo que ele fique isolado das sub-redes do seu workspace , mantendo a conectividade de rede.
    • Anexe uma tabela de rotas separada à sua sub-rede de endpoint VPC, diferente da tabela de rotas das suas sub-redes workspace. Essa tabela de rotas deve ter apenas uma única rota default para o site local VPC.

Criar grupos de segurança

Para garantir uma conectividade segura, Databricks recomenda o uso de dois grupos de segurança principais em vez de grupos individuais para cada endpoint.

  • Grupo de segurança do espaço de trabalho : Aplicado ao recurso workspace .

  • Grupo de segurança endpoint PrivateLink : aplicado a todos os endpoints VPC . Este grupo requer regras de entrada nas portas especificadas, usando o grupo de segurança workspace como origem. Não são necessárias regras de saída para o grupo de segurança do endpoint.

  • Grupo de segurança endpoint VPC do espaço de trabalho : consulte Grupos de segurança

Se o seu site workspace usa o perfil de segurançacompliance, o senhor também deve permitir o acesso bidirecional (saída e entrada) à porta 2443 para dar suporte ao endpoint FIPS para o relé de conectividade de clustering seguro.

nota

Cada grupo de segurança deve permitir acesso bidirecional (entrada e saída) entre as sub-redes workspace e a sub-rede do ponto de extremidade VPC . No entanto, usar apenas regras de entrada é mais restritivo, mas ainda suficiente para suportar a comunicação do PrivateLink. Essa configuração mais rigorosa é a implementada no padrão Terraform de Arquiteturas de Referência de Segurança (SRA).

Etapa 2: Criar o endpoint VPC

Para o plano compute clássico PrivateLink, crie um endpoint VPC para o relay de conectividade segura cluster e para o workspace, habilitando chamadas do plano compute para APIs REST Databricks . Para obter orientações sobre como gerenciar um endpoint VPC com o Console de Gerenciamento AWS , consulte os artigos AWS Criar um endpoint VPC no Console de Gerenciamento AWS. Você pode compartilhar um endpoint VPC clássico entre vários espaços de trabalho que usam a mesma VPC de gerenciamento de clientes.

Crie o endpointVPC workspace

Para criar um endpoint VPC clássico no Console de Gerenciamento AWS :

  1. Acesse a seção endpoints de VPC do Console de gerenciamento da AWS.

  2. No canto superior direito, defina a região como a mesma região do site workspace.

  3. Clique em Criar ponto de extremidade .

  4. Nomeie o site endpoint, incorporando a região e a palavra workspace, como databricks-us-west-2-workspace-vpce, para o site workspace VPC endpoint.

  5. Em Categoria de serviço , selecione os serviços de endpoint que utilizam Network Load Balancers (NLBs) e Gateway Load Balancers (GWLBs) .

  6. No campo nome do serviço, cole o nome do serviço. Obtenha os domínios do serviço VPC endpoint de sua região na tabela do PrivateLink VPC endpoint serviço.

    Para o primeiro VPC endpoint que o senhor criar, copie o nome do serviço regional para o workspace.

  7. Clique em Verificar serviço e verifique se a página exibe o nome do serviço verificado em uma caixa verde. Se você encontrar um erro informando que "o nome do serviço não pôde ser verificado", verifique se as regiões da sua VPC, sub-redes e o novo endpoint VPC correspondem.

  8. No campo VPC campo, selecione seu workspace VPC.

  9. Na seção Sub-redes , selecione a sub-rede onde o endpoint VPC será criado. Se você criou uma sub-rede dedicada separada para o endpoint VPC , selecione essa sub-rede. Caso contrário, selecione uma das suas sub-redes workspace Databricks .

  10. Na seção Grupos de segurança , selecione o grupo de segurança que você criou para conexões clássicas na etapa 1: Configurar objetos de rede AWS.

  11. Em Configurações adicionais , ative a opção Ativar nome DNS privado .

  12. Clique em Criar terminal .

Crie o endpoint VPC de retransmissão do SCC

  1. Repita as etapas anteriores para criar o relé de conectividade de clustering seguro endpoint. Use a tabela em PrivateLink VPC endpoint serviço para obter o nome do serviço regional para o relé de conectividade de clustering seguro. A Databricks recomenda incluir a região e a palavra scc no nome do endpoint, como databricks-us-west-2-scc-vpce.
nota

Os endpoints VPC clássicos usam automaticamente a resolução de DNS AWS quando você habilita a opção "Habilitar nome DNS privado" no endpoint. Se você também estiver configurando o PrivateLink de entrada, precisará configurar o DNS para rotear as solicitações do usuário para o endpoint VPC de entrada. Para obter orientações completas sobre a configuração de DNS, consulte Configurar DNS para AWS Inbound PrivateLink.

Vários tipos de objetos são relevantes para a configuração do PrivateLink:

  • Registro endpoint VPC : Depois de criar os endpoints VPC no Console de Gerenciamento AWS , registre-os no Databricks para estabelecer os registros endpoint VPC . Os registros endpoint VPC não podem ser atualizados posteriormente.

    • Para endpoints VPC clássicos, verifique se o campo de região corresponde à região do seu workspace e à região do endpoint VPC AWS que você está registrando. Para conexões PrivateLink de entrada, o campo de região deve corresponder à região da sua VPC de trânsito e à região do endpoint da VPC AWS para a conexão de entrada do workspace.
    • Para registrar seu endpoint VPC clássico e de entrada, siga as instruções em Gerenciar registros endpoint VPC.
  • Configurações de rede (necessárias apenas para endpoints VPC clássicos) : As configurações de rede detalham informações sobre uma VPC gerenciada pelo cliente e incluem dois campos de configuração PrivateLink do plano compute clássico.

    • Para criar uma configuração de rede, consulte registrar sua VPC com Databricks. Para obter os requisitos completos para VPCs, sub-redes e grupos de segurança gerenciais por cliente, consulte Configurar uma VPCgerencial por cliente. Na seção Conectividade privada de back-end , defina os campos para seus registros de endpoint VPC clássicos da seguinte forma:
    • No primeiro campo, selecione o registro VPC endpoint para o relé de conectividade de clustering seguro .
    • No segundo campo, escolha o registro VPC endpoint para o workspace (REST APIs ).
    • Depois de criar uma configuração de rede, você não poderá atualizá-la.
  • Configurações de acesso privado : O objeto de configuração de acesso privado de um workspace inclui configurações para a conectividade do AWS PrivateLink. O senhor pode usar um único objeto de configurações de acesso privado para vários espaços de trabalho na mesma região AWS. Para criar um objeto de configurações de acesso privado (PAS), consulte Gerenciar configurações de acesso privado.

Seu workspace já deve estar usando um VPC gerenciado pelo cliente e uma conectividade segura de clustering.

  1. Crie um workspace seguindo as instruções aqui. Esta página explica como configurar as key definições workspace , incluindo o URL workspace , a região, a integração Unity Catalog , as configurações de credenciais e as configurações de armazenamento. Não clique no botão Salvar ainda.
  2. Clique em Advanced configurations (Configurações avançadas ) para view campos adicionais.
  3. Em Virtual Private Cloud , no menu, escolha a configuração de rede do Databricks que o senhor criou.
  4. Abaixo do cabeçalho Private Link , clique no menu e escolha o nome do objeto de configurações de acesso privado que o senhor criou.
  5. Clique em Salvar .
nota

Depois de criar um workspace, o seu estado muda para RUNNING e as atualizações de rede VPC associadas são aplicadas imediatamente. No entanto, aguarde mais 20 minutos após o status mostrar RUNNING antes de criar ou usar clusters. Tentar criar ou usar clusters antes desse horário pode resultar em falhas de inicialização, erros ou outros comportamentos inesperados.

Etapa 5: Adicionar o endpoint VPC para outro serviço AWS

Ao implementar o PrivateLink clássico do plano compute , você deve escolher uma das duas abordagens para conectividade cluster com o serviço AWS (S3, STS, Kinesis):

  • Configuração padrão (Opção 1) : Requer acesso de saída à internet usando um gateway NAT e um gateway de internet (ou infraestrutura similar gerenciada pelo cliente), juntamente com endpoints opcionais de S3, STS e Kinesis VPC .
  • Configuração totalmente privada (Opção 2) : Elimina o gateway NAT e o gateway da internet, exigindo endpoints S3, STS e Kinesis VPC .

Opção 1: Recomendada

Para casos de uso típicos, Databricks recomenda a criação do seguinte endpoint VPC . Isso permite que clusters e outros recursos compute no plano compute clássico se conectem diretamente ao serviço nativo AWS por meio AWS PrivateLink. Crie esses endpoints VPC na mesma sub-rede que seus endpoints VPC clássicos.

Casos de uso em que clusters não têm acesso à rede do endpoint público AWS exigem estes endpoints VPC :

Opção 2: Implantação com isolamento físico rigoroso

Se a sua implementação exigir ambientes estritamente isolados da internet, onde compute não podem acessar a internet pública, configure um ponto de extremidade VPC adicional para substituir a conectividade do Gateway NAT e do Gateway da Internet.

Essa configuração elimina o Gateway NAT e o Gateway de Internet. Em vez disso, crie o seguinte recurso:

  1. Crie uma sub-rede privada para o endpoint da interface do serviço AWS com um intervalo CIDR mínimo de /27 .

  2. Crie um grupo de segurança para o endpoint VPC AWS com uma regra de entrada que permita o tráfego TCP na porta 443 a partir do grupo de segurança workspace .

  3. Crie um endpoint de interface VPC do STS com a seguinte configuração:

    • Nome do serviço: com.amazonaws.<region>.sts
    • Sub-rede: sub-rede do endpoint AWS
    • Grupo de segurança: Grupo de segurança de endpoint AWS
    • Ativar nome DNS privado
    • Convenção de nomenclatura: sts-<region>-vpce (por exemplo, sts-us-west-2-vpce)
  4. Crie um endpoint de interface VPC do Kinesis com a seguinte configuração:

    • Nome do serviço: com.amazonaws.<region>.kinesis-streams
    • Sub-rede: sub-rede do endpoint AWS
    • Grupo de segurança: Grupo de segurança de endpoint AWS
    • Ativar nome DNS privado
    • Convenção de nomenclatura: kinesis-<region>-vpce (por exemplo, kinesis-us-west-2-vpce)
  5. Crie um endpoint de gateway VPC S3 . Este endpoint é obrigatório e configurado da mesma forma que na configuração padrão.

Configuração centralizada endpoint

Para centralizar seu endpoint, verifique o seguinte:

  • computar recurso resolver o nome de domínio totalmente qualificado de cada serviço para o IP privado do site correspondente VPC endpoint.
  • Existem rotas que permitem que o compute recurso alcance o endpoint VPC.

Próximos passos