Pular para o conteúdo principal

Configurar serviço privado de front-end Conectar

Esta página aborda os passos de configuração para conectividade privada de entrada entre usuários e seus espaços de trabalho Databricks . Para aumentar a segurança da implementação serverless do seu workspace, você deve usar conectividade privada de entrada.

Ative o serviço privado Connect para entrada no seu workspace

Estabeleça conexões seguras e privadas de suas VPCs do Google Cloud ou redes on-premises para o serviço Databricks usando o serviço privado de entrada Connect, que roteia o tráfego por meio de um endpoint de interface VPC em vez da internet pública.

Com o serviço de entrada Private Service Connect, você pode:

  • Configurar acesso privado : O serviço privado de entrada Connect oferece suporte a conexões com o aplicativo web Databricks , API REST e API Databricks Connect .
  • Habilitar acesso privado : Configure o serviço privado de entrada Connect durante a criação de um novo workspace ou habilite-o em um já existente.
  • Impor conectividade privada obrigatória : Para impor conexões privadas a um workspace, você deve configurar a conectividade privada dos usuários ao Databricks.

Para usar a API REST, consulte a referência da API de configurações de acesso privado.

Requisitos e limitações

Para ativar o serviço Connect de entrada privado, você deve atender aos seguintes requisitos:

  • Seu Databricks account deve estar no plano Enterprise.
  • Somente para novos espaços de trabalho : o senhor deve adicionar a conectividade do Private Service Connect ao criar o workspace. O senhor não pode adicionar a conectividade do Private Service Connect a um site existente workspace.
  • É necessário gerenciar o cliente VPC: O senhor deve usar um gerenciador de clientes VPC. O senhor deve criar seu VPC no console do Google Cloud ou em outra ferramenta. Quando o VPC estiver disponível, use o console Databricks account ou API para criar uma configuração de rede. Essa configuração deve fazer referência ao seu novo VPC e incluir configurações específicas para o serviço privado Connect.
  • Cotas : Você pode configurar até dez endpoints Connect de serviço privado por região por projeto de host VPC para Databricks. Vários espaços de trabalho Databricks na mesma VPC e região devem compartilhar esses endpoints, pois os endpoints do Private Serviço Connect são recursos específicos da região. Se essa cota representar uma limitação para sua configuração, entre em contato com sua equipe account .
  • Não há conectividade entre regiões : Serviço privado Connect workspace componentes devem estar na mesma região, incluindo:
    • Rede e sub-redes de VPC de trânsito.
    • plano de computação VPC rede e sub-redes.
    • Databricks workspace.
    • Serviço privado Connect endpoint.
    • Serviço privado Conecte endpoint sub-redes.

Várias opções para topologia de rede

Ao implantar um Databricks workspace privado, o senhor deve escolher uma das seguintes opções de configuração de rede:

  • Hospedar usuários (clientes) Databricks e o plano compute Databricks na mesma rede : Nesta opção, a VPC de trânsito e VPC do plano compute referem-se à mesma rede VPC subjacente. Se você escolher essa topologia, todo o acesso a qualquer workspace Databricks a partir dessa VPC deverá passar pela conexão Connect de serviço privado de entrada dessa VPC. Consulte os requisitos e limitações.
  • Hospedar usuários (clientes) Databricks e o plano Databricks compute em redes separadas : nesta opção, o usuário ou cliente do aplicativo pode acessar diferentes áreas de trabalho Databricks usando diferentes caminhos de rede. VPC Opcionalmente, permita que um usuário na Internet de trânsito acesse um site privado workspace por meio de uma conexão de serviço privado e também permita que usuários na Internet pública acessem o site workspace.

Não é possível misturar espaços de trabalho que utilizam o serviço Connect privado de entrada com espaços que não o utilizam, dentro da mesma VPC de trânsito. Embora seja possível compartilhar uma VPC de trânsito entre vários espaços de trabalho, todos os espaços de trabalho na VPC de trânsito devem ser do mesmo tipo, ou seja, todos usando o serviço Connect privado de entrada, ou nenhum usando. Essa exigência se deve às especificidades da resolução de DNS na nuvem do Google.

Referência de anexos de serviços regionais

Para habilitar o serviço Connect de entrada privado, você precisa dos URIs de conexão do serviço para o endpoint workspace da sua região. O URI termina com o sufixo plproxy-psc-endpoint-all-ports. Este endpoint tem uma função dupla. É utilizado pelo serviço privado Connect de entrada para conectar sua VPC de trânsito ao aplicativo web workspace e APIs REST , e também é utilizado pelo serviço privado Connect do plano compute clássico para se conectar ao plano de controle para APIs REST .

Para encontrar o URI do anexo workspace endpoint e do serviço para sua região, consulte Endereços IP e domínios para Databricks serviço e ativo.

o passo 1: Criar uma sub-rede

No plano compute VPC network, crie uma sub-rede especificamente para o endpoint Private serviço Connect. As instruções a seguir pressupõem que o senhor esteja usando o console do Google Cloud, mas também é possível usar o site gcloud CLI para realizar tarefas semelhantes.

Para criar uma sub-rede:

  1. No console de nuvem do Google Cloud, acesse a página da listaVPC.

  2. Clique em Adicionar sub-rede .

  3. Defina o nome, a descrição e a região.

  4. Se o campo Propósito estiver visível (talvez não esteja visível), escolha Nenhum :

  5. Defina um intervalo de IP privado para a sub-rede, como 10.0.0.0/24. É necessário alocar espaços IP suficientes para hospedar seu endpoint do serviço Connect privado. Seus intervalos de IP não podem se sobrepor a nenhum dos seguintes:

    • Sub-rede da BYO VPC.
    • Sub-rede que contém o ponto de extremidade do Private Service Connect.
  6. Confirme se a sua sub-rede foi adicionada ao VPC view no console do Google Cloud para o seu VPC:

    Liste todas as sub-redes.

o passo 2: Configurar acesso privado de entrada

Para configurar o acesso privado de clientes Databricks para o serviço privado Connect de entrada:

  1. Criar uma rede VPC de trânsito ou reutilizar uma já existente.

  2. Crie ou reutilize uma sub-rede com um intervalo de IPs privados que tenha acesso ao endpoint de entrada do serviço privado Connect.

importante

Verifique se seus usuários têm acesso às VMs ou recursos compute nessa sub-rede.

  1. Crie um VPC endpoint do trânsito VPC para o anexo de serviço workspace (plproxy-psc-endpoint-all-ports).

    Para obter o nome completo a ser usado em sua região, consulte Endereços IP e domínios para Databricks serviço e ativo.

o passo 3: registre seu endpoint VPC

Registre seu endpoint do Google Cloud usando o console Databricks account . O senhor também pode usar o endpointVPC Configurations API.

  1. Acesse o consoleDatabricks account.
  2. Clique no recurso Cloud tab e, em seguida, em VPC endpoint .
  3. Clique em registro VPC endpoint .
  4. Para cada um dos seus endpoints do Private Service Connect, preencha os campos necessários para registrar um novo VPC endpoint:
    • VPC endpoint name : Um nome legível para identificar o VPC endpoint. Databricks recomenda o uso do mesmo nome do seu serviço privado Connect endpoint ID, mas não é necessário que eles correspondam.
    • Região : A região do Google Cloud onde esse serviço privado Connect endpoint está definido.
    • ID do projeto de rede VPC do Google Cloud : A ID do projeto do Google Cloud em que esse endpoint está definido. Esse é o ID do projeto da VPC de onde se originam as conexões do usuário, que às vezes é chamada de VPC de trânsito.

A tabela a seguir mostra as informações que o senhor precisa para o endpoint.

Tipo de endpoint

campo

Exemplo

endpoint VPC de trânsito de entrada (plproxy-psc-endpoint-all-ports)

VPC endpoint nome (Databricks recomenda que o nome corresponda ao ID do Google Cloud endpoint )

psc-demo-user-cp

ID do projeto de rede VPC do Google Cloud

databricks-dev-entd-demo

Região do Google Cloud

us-east4

Quando terminar, utilize a lista de pontos finais “ VPC ” no console “ account ” para revisar a lista de pontos finais e confirmar as informações.

Passo 4: Criar um objeto de configurações de acesso privado Databricks

Crie um objeto de configurações de acesso privado que defina várias configurações do serviço privado Connect para o seu workspace. Este objeto está anexado ao seu workspace. É possível anexar um objeto de configurações de acesso privado a vários espaços de trabalho.

  1. Como administrador do account, acesse o console account.

  2. Na barra lateral, clique em Segurança .

  3. Clique em Configurações de acesso privado .

  4. Clique em Adicionar configuração de acesso privado .

  5. Digite um nome para seu novo objeto de configurações de acesso privado.

  6. Selecione a mesma região do site workspace.

  7. Defina a opção Acesso público ativado . Isso não pode ser alterado após a criação do objeto de configurações de acesso privado.

    • Se o acesso público estiver ativado , os usuários poderão configurar as listas de acesso IP para permitir ou bloquear o acesso público (da Internet pública) ao espaço de trabalho que usa esse objeto de configurações de acesso privado.
    • Se o acesso público estiver desativado , nenhum tráfego público poderá acessar o espaço de trabalho que usa esse objeto de configurações de acesso privado. As listas de acesso IP não afetam o acesso público.

    Em ambos os casos, as listas de acesso IP não podem bloquear o tráfego privado do serviço privado Connect porque as listas de acesso controlam apenas o acesso da Internet pública.

  8. Selecione um nível de acesso privado que restrinja o acesso a conexões autorizadas do serviço privado Connect:

    • conta : Qualquer endpoint VPC registrado em seu Databricks account pode acessar este workspace. Esse é o valor default.
    • ponto final : Somente o ponto final VPC que você especificar poderá acessar o workspace. Se você selecionar este valor, escolha entre os seus endpoints VPC registrados.
  9. Clique em Adicionar configuração de acesso privado .

o passo 5: Criar uma configuração de rede

Crie uma configuração de rede Databricks que contenha informações sobre sua VPC gerenciada pelo cliente para seu workspace. Este objeto está anexado ao seu workspace. Você também pode usar a API de configurações de rede.

  1. Acesse o consoleDatabricks account.
  2. Clique no recurso Cloud tab e, em seguida, em Network configurations (Configurações de rede ).
  3. Clique em Adicionar configuração de rede .

A tabela a seguir mostra as informações que o senhor precisa usar para cada endpoint.

campo

Valor de exemplo

Nome da configuração de rede

psc-demo-network

ID do projeto GCP da rede

databricks-dev-xpn-host

Nome da VPC

psc-demo-dp-vpc

Nome da sub-rede

subnet-psc-demo-dp-vpc

Região da sub-rede

us-east4

Endpoint VPC para transmissão segura da conectividade do cluster

psc-demo-dp-ngrok

endpoint VPC para APIs REST (plano compute clássico, serviço privado, conexão com o workspace)

psc-demo-dp-rest-api

o passo 6: Criar um workspace

Crie um objeto de configuração de rede ( workspace ) que utilize a configuração de rede criada com o console de gerenciamento de rede ( account ). Também é possível utilizar o espaço de trabalho API.

  1. Acesse o consoleDatabricks account.

  2. Clique no espaço de trabalho tab.

  3. Clique em Create workspace .

    Crie um workspace.

  4. Defina esses campos padrão do site workspace:

    • nome do espaço de trabalho.
    • região do espaço de trabalho.
    • ID do projeto do Google Cloud (o projeto para o recurso compute do workspace, que pode ser diferente do ID do projeto para sua VPC).
  5. Definir campos específicos do Private Service Connect:

    1. Clique em Configurações avançadas .
    2. No campo Configuração de rede , escolha a configuração de rede que você criou nas etapas anteriores.
    3. No campo Conectividade privada , escolha o objeto de configurações de acesso privado que você criou nas etapas anteriores. O senhor pode anexar um objeto de configurações de acesso privado a vários espaços de trabalho.
  6. Clique em Salvar .

o passo 7: Valide a configuração workspace

Depois de criar o workspace, retorne à página workspace e encontre o recém-criado workspace. Normalmente, leva de 30 segundos a 3 minutos para que o site workspace passe do status PROVISIONING para o status RUNNING. Depois que o status mudar para RUNNING, seu workspace estará configurado com sucesso.

Valide a configuração utilizando o console Databricks account :

  1. Clique em Cloud recurso e, em seguida, em Configurações de rede . Encontre a configuração de rede para sua VPC e confirme se todos os campos estão corretos.

  2. Clique em workspace e localize o site workspace. Confirme se o site workspace está em execução:

    Valide seu workspace.

dica

Se o senhor quiser revisar o conjunto de espaços de trabalho usando o API, faça uma solicitação GET para o https://accounts.gcp.databricks.com/api/2.0/accounts/<account-id>/workspaces endpoint. Veja Obter todo o espaço de trabalho.

o passo 8: Configurar DNS

Crie uma zona DNS privada para conectividade de entrada. Embora seja possível compartilhar uma VPC de trânsito entre vários espaços de trabalho na mesma região, ela deve conter exclusivamente espaços de trabalho que usam PSC de entrada ou que não usam, pois a resolução de DNS do Google Cloud não suporta a mistura de ambos os tipos em uma única VPC de trânsito.

  1. Verifique se você tem a URL do workspace para o seu workspace do Databricks implantado, no formato https://33333333333333.3.gcp.databricks.com. Obtenha esta URL no navegador da web quando estiver visualizando um workspace ou no consoleaccount na lista de espaços de trabalho.

  2. Crie uma zona DNS privada que inclua a rede VPC de trânsito. Na página Cloud DNS no Google Cloud Console, clique em CRIAR ZONA .

    1. No campo Nome do DNS , digite gcp.databricks.com.
    2. No campo Networks (Redes ), escolha sua rede VPC de trânsito.
    3. Clique em Criar .
  3. Crie registros DNS A para mapear seu URL workspace para o IP do serviço privado plproxy-psc-endpoint-all-ports Connect endpoint.

    1. Localize o IP do serviço privado Connect endpoint para o plproxy-psc-endpoint-all-ports serviço privado Connect endpoint. Neste exemplo, suponha que o IP do serviço privado Connect endpoint psc-demo-user-cp seja 10.0.0.2.
    2. Crie um registro A para mapear o URL workspace para o IP endpoint do Serviço Connect privado. Nesse caso, mapeie o nome de domínio exclusivo do seu workspace (como 33333333333333333.3.gcp.databricks.com) para o endereço IP do endpoint do Private serviço Connect, que em nosso exemplo anterior era 10.0.0.2 , mas seu número pode ser diferente.
    3. Crie um registro A para mapear dp-<workspace-url> para o IP endpoint do serviço Connect privado. Nesse caso, usar o URL workspace de exemplo mapearia dp-333333333333333.3.gcp.databricks.com para 10.0.0.2, mas esses valores podem ser diferentes para você.
  4. Se os usuários usarem um navegador da web no VPC do usuário para acessar o workspace, para oferecer suporte à autenticação, você deve criar um registro A para mapear <workspace-gcp-region>.psc-auth.gcp.databricks.com para 10.0.0.2. Neste caso, mapeie us-east4.psc-auth.gcp.databricks.com para 10.0.0.2. Para conectividade de entrada, este passo geralmente é necessário; no entanto, se você planeja estabelecer conectividade de entrada da rede de trânsito apenas para APIs REST (e não para acesso de usuários via navegador web), você pode omitir este passo.

A configuração de DNS de entrada da sua zona, com registros A que mapeiam para o URL do seu workspace e o serviço de autenticação Databricks , geralmente se parece com o seguinte:

Valide sua configuração de DNS

Na sua rede VPC de trânsito, use a ferramenta nslookup para confirmar que os seguintes URLs agora resolvem para o endpoint Connect do serviço privado de entrada.

  • <workspace-url>
  • dp-<workspace-url>
  • <workspace-gcp-region>.psc-auth.gcp.databricks.com

Nome DNS intermediário para o serviço privado Connect

O nome DNS intermediário para o espaço de trabalho que permite o plano compute clássico ou o serviço privado Connect de entrada é <workspace-gcp-region>.psc.gcp.databricks.com. Isso permite separar o tráfego do espaço de trabalho que eles precisam acessar, de outros serviços Databricks que não são compatíveis com o Private Serviço Connect, como o console account .

o passo 9 (opcional): Configurar listas de acesso IP

Por default, as conexões de entrada para o espaço de trabalho Connect do serviço privado permitem acesso público. Você pode controlar o acesso público criando um objeto de configurações de acesso privado. Saber mais.

Siga estas etapas para gerenciar o acesso público:

  1. Decida sobre o acesso público:

    • Negar acesso público : Não são permitidas conexões públicas ao workspace.
    • Permitir acesso público : você pode restringir ainda mais o acesso usando listas de acesso IP.
  2. Se você permitir o acesso público, configure as listas de acesso IP:

    • Configure listas de acesso IP para controlar quais endereços IP públicos podem acessar o site Databricks workspace.
    • As listas de acesso IP afetam somente solicitações de endereços IP públicos pela Internet. Eles não bloqueiam o tráfego privado do serviço privado Connect.
  3. Para bloquear todo o acesso à Internet:

nota

As listas de acesso IP não afetam as solicitações de redes VPC conectadas por meio do serviço Connect privado. Essas conexões são gerenciadas usando a configuração de nível de acesso Connect de serviço privado. Veja o passo 4: Criar um objeto de configurações de acesso privado Databricks.

o passo 10 (opcional): Configurar VPC Service Controls

Melhore sua conectividade privada com Databricks implementando VPC Service Controls o serviço Privado Connect, que oferece uma camada adicional de segurança para manter o tráfego privado. Essa abordagem combinada mitiga de forma eficaz os riscos de exfiltração de dados, isolando seu recurso do Google Cloud e controlando o acesso às suas redes VPC.

Configure o acesso privado clássico do plano compute VPC do plano compute para o armazenamento em nuvem.

Configure o Acesso Privado ao Google ou o serviço Privado para acessar de forma privada o recurso de armazenamento em nuvem a partir do seu plano compute VPC.

Adicione seus projetos de avião compute a um serviço VPC Service Controls Perimeter

Para cada Databricks workspace, adicione os seguintes projetos do Google Cloud a um perímetro de serviço VPC Service Controls:

  • plano de computação VPC projeto de host
  • Projeto que contém o bucket de armazenamento workspace
  • projetos de serviços que contêm o compute recurso do workspace

Com essa configuração, você deve conceder acesso aos dois itens a seguir:

  • O recurso compute e o balde de armazenamento workspace do plano de controle Databricks
  • Databricks-gerenciar as caçambas de armazenamento do plano compute VPC

Conceda o acesso acima com as seguintes regras de entrada e saída no perímetro do serviço VPC Service Controls acima.

Para obter os números de projeto para essas regras de entrada e saída, consulte Endereços IP e domínios para Databricks serviço e ativo.

Regra de entrada

O senhor deve adicionar uma regra de entrada para conceder acesso ao seu VPC Service Controls serviço Perimeter a partir do plano de controle Databricks VPC. Veja a seguir um exemplo de regra de entrada:

From:
Identities: ANY_IDENTITY
Source > Projects =
<us-central1-control-plane-vpc-host-project-numbers> # Only required for workspace creation
<regional-control-plane-vpc-host-project-numbers>
<regional-control-plane-uc-project-number>
<regional-control-plane-audit-log-delivery-project-number>
To:
Projects =
<list of compute plane Project Ids>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: compute.googleapis.com
Service methods: All actions
Service name: container.googleapis.com
Service methods: All actions
Service name: logging.googleapis.com
Service methods: All actions
Service name: cloudresourcemanager.googleapis.com
Service methods: All actions
Service name: iam.googleapis.com
Service methods: All actions

Para obter os números de projeto para suas regras de ingresso, consulte URIs de anexo e números de projeto do Private Service Connect (PSC).

Regra de saída

O senhor deve adicionar uma regra de saída para conceder acesso a Databricks-gerenciar buckets de armazenamento do plano compute VPC. Veja a seguir um exemplo de regra de saída:

From:
Identities: ANY_IDENTITY
To:
Projects =
<regional-control-plane-asset-project-number>
<regional-control-plane-vpc-host-project-numbers>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: artifactregistry.googleapis.com
Service methods:
artifactregistry.googleapis.com/DockerRead'

Para obter os números de projeto para suas regras de saída, consulte URIs de anexo e números de projeto do Private Service Connect (PSC).

Acesse data lake baldes de armazenamento protegidos por VPC Service Controls

Adicione os projetos do Google Cloud que contêm os buckets de armazenamento do data lake a um perímetro de serviço do VPC Service Controls.

O senhor não precisará de nenhuma regra adicional de entrada ou saída se os buckets de armazenamento data lake e os projetos Databricks workspace estiverem no mesmo perímetro de serviço VPC Service Controls.

Se os buckets de armazenamento data lake estiverem em um VPC Service Controls serviço Perimeter separado, o senhor deverá configurar o seguinte:

  • Regras de entrada em data lake serviço Perimeter:

    • Permitir o acesso ao Cloud Storage a partir do plano Databricks compute VPC
    • Permita o acesso ao Cloud Storage a partir do VPC do plano de controle do Databricks utilizando os IDs do projeto documentados na página de regiões. Este acesso é necessário, pois Databricks introduz novos recursos de governança de dados, como Unity Catalog.
  • Regras de saída em Databricks compute plane serviço Perimeter:

    • Permitir a saída para o Cloud Storage em projetos de data lake

Próximos passos