Configurar a conectividade privada com os Databricks
Esta página aborda as etapas de configuração da conectividade privada de front-end entre os usuários e seu espaço de trabalho Databricks. Para adicionar mais segurança à implementação do workspace serverless , o senhor deve ter conectividade privada de front-end.
- Para obter uma visão geral da conectividade privada em Databricks, consulte Rede de plano clássica compute.
- Para habilitar a conectividade privada de back-end para Databricks, consulte Enable Private serviço Connect for your workspace.
Habilite o serviço Private Connect de front-end para o seu workspace
Estabeleça conexões seguras e privadas de seus VPCs do Google Cloud ou redes locais para Databricks serviço usando o front-end Private serviço Connect, que roteia o tráfego por meio de uma interface VPC endpoint em vez da Internet pública.
Com o front-end Private serviço Connect, o senhor pode:
- Configure o acesso privado : Front-end O serviço privado Connect suporta conexões com o aplicativo da Web Databricks, REST API e Databricks Connect API.
- Habilite facilmente o acesso privado : O senhor pode configurar o serviço privado do front-end Connect durante a criação de um novo workspace ou ativá-lo em um já existente.
- Impor a conectividade privada obrigatória : Para impor conexões privadas para um workspace, o senhor deve configurar a conectividade privada dos usuários para Databricks e do plano de controle para o plano compute a fim de impor a conectividade privada para um workspace.
Para usar a API REST, consulte a referência da API de configurações de acesso privado.
O senhor deve entrar em contato com a equipe Databricks account para solicitar acesso para habilitar o serviço privado Connect no seu workspace. Databricks O suporte para conectividade privada usando o serviço privado Connect está geralmente disponível.
Requisitos e limitações
Para ativar o front-end do Private Service Connect, o senhor deve atender aos seguintes requisitos:
- Seu Databricks account deve estar no plano Premium.
- Somente para novos espaços de trabalho : o senhor deve adicionar a conectividade do Private Service Connect ao criar o workspace. O senhor não pode adicionar a conectividade do Private Service Connect a um site existente workspace.
- É necessário gerenciar o cliente VPC: O senhor deve usar um gerenciador de clientes VPC. O senhor deve criar seu VPC no console do Google Cloud ou em outra ferramenta. Quando o VPC estiver disponível, use o console Databricks account ou API para criar uma configuração de rede. Essa configuração deve fazer referência ao seu novo VPC e incluir configurações específicas para o serviço privado Connect.
- Habilite seu account : O uso do serviço privado Connect requer a ativação inicial pelo site Databricks. Entre em contato com a equipe do Databricks account para solicitar a ativação. O senhor deve fornecer a região do Google Cloud e o ID do projeto do host para que o site Databricks possa reservar a cota de conexão do Private Service Connect necessária. Depois de receber a confirmação de que o seu account está habilitado, o senhor pode configurar objetos do Serviço Privado Connect e criar um espaço de trabalho por meio do console Databricks account ou API.
- Cotas : O senhor pode configurar até dois pontos de extremidade do Private Service Connect por região e por projeto de host VPC para Databricks. Vários espaços de trabalho do Databricks no mesmo VPC e região devem compartilhar esses pontos de extremidade porque os pontos de extremidade do Private Serviço Connect são recursos específicos da região. Se essa cota representar uma limitação para a sua configuração, entre em contato com a equipe do account.
- Não há conectividade entre regiões : Serviço privado Connect workspace componentes devem estar na mesma região, incluindo:
- Rede e sub-redes de VPC de trânsito.
- plano de computação VPC rede e sub-redes.
- Databricks workspace.
- Serviço privado Connect endpoint.
- Serviço privado Conecte endpoint sub-redes.
Várias opções para topologia de rede
Ao implantar um Databricks workspace privado, o senhor deve escolher uma das seguintes opções de configuração de rede:
- Hospedar usuários (clientes) do Databricks e o plano Databricks clássico compute na mesma rede : Nessa opção, o plano de trânsito VPC e compute VPC referem-se à mesma rede subjacente VPC. Se o senhor escolher essa topologia, todo o acesso a qualquer Databricks workspace a partir desse VPC deverá passar pela conexão front-end do Serviço Privado Connect para esse VPC. Consulte Requisitos e limitações.
- Hospede os usuários (clientes) do Databricks e o plano Databricks clássico compute em redes separadas : Nessa opção, o usuário ou o cliente do aplicativo pode acessar diferentes espaços de trabalho do Databricks usando diferentes caminhos de rede. Opcionalmente, o senhor pode permitir que um usuário em trânsito VPC acesse um workspace privado por meio de uma conexão Private Serviço Connect e também que usuários na Internet pública acessem o workspace.
O senhor não pode misturar espaços de trabalho que usam front-end do Private Service Connect com aqueles que não usam no mesmo trânsito VPC. Embora o senhor possa compartilhar um trânsito VPC em vários espaços de trabalho, todos os espaços de trabalho no trânsito VPC devem ser do mesmo tipo, todos usando o front-end Private Serviço Connect ou nenhum usando. Esse requisito se deve às especificidades da resolução de DNS no Google Cloud.
Referência de anexos de serviços regionais
Para ativar o serviço privado de front-end Connect, o senhor precisa dos URIs de anexo de serviço para o workspace endpoint de sua região. O URI termina com o sufixo plproxy-psc-endpoint-all-ports
. Esse endpoint tem uma função dupla. Ele é usado pelo front-end Private serviço Connect para conectar seu trânsito VPC ao aplicativo da Web workspace e REST APIs, e também é usado pelo back-end Private serviço Connect para se conectar ao plano de controle para REST APIs.
Para encontrar o URI do anexo workspace endpoint e do serviço para sua região, consulte Endereços IP e domínios para Databricks serviço e ativo.
Etapa 1: Habilite seu account para o serviço privado Connect
Antes que o Databricks possa aceitar conexões do Private Serviço Connect de seus projetos do Google Cloud, o senhor deve entrar em contato com a equipe do Databricks account e fornecer as seguintes informações para cada workspace onde deseja ativar o Private Serviço Connect:
-
ID da conta Databricks
- Como administrador do account, acesse o consoleDatabricks account.
- No canto superior direito, clique no ícone do perfil do usuário.
- No menu, clique no ícone de cópia para copiar o ID do account.
-
VPC Host ID do projeto da VPC de trânsito
-
Região do workspace
Um representante do Databricks responderá com uma confirmação quando o Databricks estiver configurado para aceitar conexões do Private Service Connect de seus projetos do Google Cloud. Isso pode levar até três dias úteis.
Etapa 2: criar uma sub-rede
No plano compute VPC network, crie uma sub-rede especificamente para o endpoint Private serviço Connect. As instruções a seguir pressupõem que o senhor esteja usando o console do Google Cloud, mas também é possível usar o site gcloud
CLI para realizar tarefas semelhantes.
Para criar uma sub-rede:
-
No console de nuvem do Google Cloud, acesse a página da listaVPC.
-
Clique em Adicionar sub-rede .
-
Defina o nome, a descrição e a região.
-
Se o campo Propósito estiver visível (talvez não esteja visível), escolha Nenhum :
-
Defina um intervalo de IP privado para a sub-rede, como
10.0.0.0/24
. O senhor deve alocar espaços IP suficientes para hospedar seu endpoint do Private Service Connect. Seus intervalos de IP não podem se sobrepor a nenhum dos seguintes:- Sub-rede da BYO VPC.
- Sub-rede que contém o ponto de extremidade do Private Service Connect.
-
Confirme se a sua sub-rede foi adicionada ao VPC view no console do Google Cloud para o seu VPC:
Etapa 3: configurar o acesso privado de front-end
Para configurar o acesso privado de clientes Databricks para o serviço Private Connect de front-end:
-
Criar uma rede VPC de trânsito ou reutilizar uma já existente.
-
Crie ou reutilize uma sub-rede com um intervalo de IP privado que tenha acesso ao front-end Serviço privado Connect endpoint.
Certifique-se de que seus usuários tenham acesso às VMs ou ao recurso compute nessa sub-rede.
-
Crie um VPC endpoint do trânsito VPC para o anexo de serviço workspace (
plproxy-psc-endpoint-all-ports
).Para obter o nome completo a ser usado em sua região, consulte Endereços IP e domínios para Databricks serviço e ativo.
Etapa 4: registre seu endpoint VPC
Registre seu endpoint do Google Cloud usando o console Databricks account . O senhor também pode usar o endpointVPC Configurations API.
-
Acesse o consoleDatabricks account.
-
Clique no recurso Cloud tab e, em seguida, em VPC endpoint .
-
Clique em registro VPC endpoint .
-
Para cada um dos seus endpoints do Private Service Connect, preencha os campos necessários para registrar um novo VPC endpoint:
- VPC endpoint name : Um nome legível para identificar o VPC endpoint. Databricks recomenda o uso do mesmo nome do seu serviço privado Connect endpoint ID, mas não é necessário que eles correspondam.
- Região : A região do Google Cloud onde esse serviço privado Connect endpoint está definido.
- ID do projeto de rede VPC do Google Cloud : A ID do projeto do Google Cloud em que esse endpoint está definido. Esse é o ID do projeto da VPC de onde se originam as conexões do usuário, que às vezes é chamada de VPC de trânsito.
A tabela a seguir mostra as informações que o senhor precisa para o endpoint.
Tipo de endpoint | campo | Exemplo |
---|---|---|
Trânsito front-end VPC endpoint ( | VPC endpoint nome (Databricks recomenda que o nome corresponda ao ID do Google Cloud endpoint ) |
|
ID do projeto de rede VPC do Google Cloud |
| |
Região do Google Cloud |
|
Quando terminar, o senhor pode usar a lista de endpoints VPC no console account para revisar a lista de endpoints e confirmar as informações.
Etapa 5: criar um objeto de configurações de acesso privado do Databricks
Crie um objeto de configurações de acesso privado que defina várias configurações do Private Service Connect para seu workspace. Esse objeto será anexado ao seu site workspace. Um objeto de configurações de acesso privado pode ser anexado a vários espaços de trabalho.
-
Como administrador do account, acesse o console account.
-
Na barra lateral, clique em Recurso na nuvem .
-
Clique em Configurações de acesso privado .
-
Clique em Adicionar configuração de acesso privado .
-
Digite um nome para seu novo objeto de configurações de acesso privado.
-
Selecione a mesma região do site workspace.
-
Defina a opção Acesso público ativado . Isso não pode ser alterado após a criação do objeto de configurações de acesso privado.
- Se o acesso público estiver ativado , os usuários poderão configurar as listas de acesso IP para permitir ou bloquear o acesso público (da Internet pública) ao espaço de trabalho que usa esse objeto de configurações de acesso privado.
- Se o acesso público estiver desativado , nenhum tráfego público poderá acessar o espaço de trabalho que usa esse objeto de configurações de acesso privado. As listas de acesso IP não afetam o acesso público.
Em ambos os casos, as listas de acesso IP não podem bloquear o tráfego privado do serviço privado Connect porque as listas de acesso controlam apenas o acesso da Internet pública.
-
Selecione um nível de acesso privado que restrinja o acesso a conexões autorizadas do serviço privado Connect:
- conta : Qualquer endpoint VPC registrado em seu Databricks account pode acessar este workspace. Esse é o valor default.
- : Somente o ponto de extremidade VPC que o senhor especificar pode acessar o workspace. Se o senhor escolher esse valor, poderá escolher entre os pontos de extremidade registrados em VPC.
-
Clique em Adicionar configuração de acesso privado .
Etapa 6: criar uma configuração de rede
Crie uma configuração de rede Databricks que contenha informações sobre seu cliente-gerenciar VPC para seu workspace. Esse objeto será anexado ao seu workspace. O senhor também pode usar a API de configurações de rede.
- Acesse o consoleDatabricks account.
- Clique no recurso Cloud tab e, em seguida, em Network configurations (Configurações de rede ).
- Clique em Adicionar configuração de rede .
A tabela a seguir mostra as informações que o senhor precisa usar para cada endpoint.
campo | Valor de exemplo |
---|---|
Nome da configuração de rede |
|
ID do projeto GCP da rede |
|
Nome da VPC |
|
Nome da sub-rede |
|
Região da sub-rede |
|
Nome do intervalo de IP secundário para pods GKE |
|
Nome do intervalo de IP secundário para serviços GKE |
|
Endpoint VPC para transmissão segura da conectividade do cluster |
|
VPC endpoint Para REST APIs (conexão back-end para workspace) |
|
Etapa 7: Criar um workspace
Crie um workspace que use a configuração de rede que o senhor criou usando o console account. O senhor também pode usar o espaço de trabalho API.
-
Acesse o consoleDatabricks account.
-
Clique no espaço de trabalho tab.
-
Clique em Create workspace .
-
Defina esses campos padrão do site workspace:
- nome do espaço de trabalho.
- região do espaço de trabalho.
- ID do projeto do Google Cloud (o projeto workspacedo compute recurso do, que pode ser diferente do ID do projeto do VPC seu).
-
Definir campos específicos do Private Service Connect:
- Clique em Configurações avançadas .
- No campo Configuração de rede , escolha a configuração de rede que você criou nas etapas anteriores.
- No campo Conectividade privada , escolha o objeto de configurações de acesso privado que você criou nas etapas anteriores. O senhor pode anexar um objeto de configurações de acesso privado a vários espaços de trabalho.
-
Clique em Salvar .
Etapa 8: Validar a configuração do site workspace
Depois de criar o workspace, retorne à página workspace e encontre o recém-criado workspace. Normalmente, leva de 30 segundos a 3 minutos para que o site workspace passe do status PROVISIONING
para o status RUNNING
. Depois que o status mudar para RUNNING
, seu workspace estará configurado com sucesso.
O senhor pode validar a configuração usando o console Databricks account :
-
Clique em Cloud recurso e, em seguida, em Configurações de rede . Encontre a configuração de rede para sua VPC e confirme se todos os campos estão corretos.
-
Clique em workspace e localize o site workspace. Confirme se o site workspace está em execução:
Se o senhor quiser revisar o conjunto de espaços de trabalho usando o API, faça uma solicitação GET
para o https://accounts.gcp.databricks.com/api/2.0/accounts/<account-id>/workspaces
endpoint. Veja Obter todo o espaço de trabalho.
Etapa 9: Configurar o DNS
Crie uma zona DNS privada para conectividade front-end. Embora o senhor possa compartilhar um trânsito VPC em vários espaços de trabalho na mesma região, ele deve conter exclusivamente o espaço de trabalho que usa PSC front-end ou aqueles que não usam, porque a resolução de DNS do Google Cloud não suporta a mistura dos dois tipos em um único trânsito VPC.
-
Certifique-se de que o senhor tenha o URL workspace para o seu implantado Databricks workspace, no formato https://33333333333333.3.gcp.databricks.com. O senhor pode obter esse URL no navegador da Web quando estiver visualizando um workspace ou no consoleaccount em sua lista de espaços de trabalho.
-
Crie uma zona DNS privada que inclua a rede VPC de trânsito. Na página Cloud DNS no Google Cloud Console, clique em CRIAR ZONA .
- No campo Nome do DNS , digite
gcp.databricks.com
. - No campo Networks (Redes ), escolha sua rede VPC de trânsito.
- Clique em Criar .
- No campo Nome do DNS , digite
-
Crie registros DNS
A
para mapear seu URL workspace para o IP do serviço privadoplproxy-psc-endpoint-all-ports
Connect endpoint.- Localize o IP do serviço privado Connect endpoint para o
plproxy-psc-endpoint-all-ports
serviço privado Connect endpoint. Neste exemplo, suponha que o IP do serviço privado Connect endpointpsc-demo-user-cp
seja10.0.0.2
. - Crie um registro
A
para mapear o URL workspace para o IP do serviço privado Connect endpoint. Nesse caso, mapeie seu nome de domínio exclusivo workspace (como33333333333333333.3.gcp.databricks.com
) para o endereço IP do serviço privado Connect endpoint, que em nosso exemplo anterior era10.0.0.2
, mas seu número pode ser diferente. - Crie um registro
A
para mapeardp-<workspace-url>
para o IP do serviço privado Connect endpoint. Nesse caso, usando o exemplo do URL workspace, ele mapeariadp-333333333333333.3.gcp.databricks.com
para10.0.0.2
, mas esses valores podem ser diferentes para o senhor.
- Localize o IP do serviço privado Connect endpoint para o
-
Se os usuários usarem um navegador da Web no usuário VPC para acessar o workspace, para dar suporte à autenticação, o senhor deverá criar um registro
A
para mapear<workspace-gcp-region>.psc-auth.gcp.databricks.com
para10.0.0.2
. Nesse caso, mapeieus-east4.psc-auth.gcp.databricks.com
para10.0.0.2
. Para a conectividade de front-end, essa etapa normalmente é necessária, mas se o senhor planejar a conectividade de front-end da rede de trânsito somente para APIs REST (não para acesso do usuário do navegador da Web), poderá omitir essa etapa.
A configuração de DNS front-end da sua zona com registros A
que mapeiam para o URL workspace e o serviço de autenticação Databricks geralmente se parece com o seguinte:
Valide sua configuração de DNS
Em sua rede de trânsito VPC, use a ferramenta nslookup
para confirmar que os seguintes URLs agora são resolvidos para o front-end Private serviço Connect endpoint IP.
<workspace-url>
dp-<workspace-url>
<workspace-gcp-region>.psc-auth.gcp.databricks.com
Nome DNS intermediário para o serviço privado Connect
O nome DNS intermediário para o espaço de trabalho que habilita o serviço Private Connect de back-end ou front-end é <workspace-gcp-region>.psc.gcp.databricks.com
. Isso permite que o senhor separe o tráfego para o espaço de trabalho que eles precisam acessar de outros serviços do Databricks que não são compatíveis com o Private Service Connect, como o console account.
Etapa 10 (opcional): Configurar listas de acesso IP
Em default, as conexões de front-end com o espaço de trabalho do Serviço Privado Connect permitem acesso público. Você pode controlar o acesso público criando um objeto de configurações de acesso privado. Saiba mais.
Siga estas etapas para gerenciar o acesso público:
-
Decida sobre o acesso público:
- Negar acesso público : Não serão permitidas conexões públicas com o site workspace.
- Permitir acesso público : você pode restringir ainda mais o acesso usando listas de acesso IP.
-
Se você permitir o acesso público, configure as listas de acesso IP:
- Configure listas de acesso IP para controlar quais endereços IP públicos podem acessar o site Databricks workspace.
- As listas de acesso IP afetam somente solicitações de endereços IP públicos pela Internet. Eles não bloqueiam o tráfego privado do serviço privado Connect.
-
Para bloquear todo o acesso à Internet:
- Habilite as listas de acesso IP para seu workspace. Consulte Configurar listas de acesso IP para o espaço de trabalho
- Crie uma regra de lista de acesso IP:
BLOCK 0.0.0.0/0
.
As listas de acesso IP não afetam as solicitações das redes VPC conectadas por meio do serviço privado Connect. Essas conexões são gerenciadas usando a configuração do nível de acesso do Private Service Connect. Consulte a Etapa 5: criar um objeto de configurações de acesso privado do Databricks.
Etapa 11 (opcional): Configurar VPC Service Controls
O senhor pode aprimorar sua conectividade privada com o Databricks implementando o VPC Service Controls ao lado do serviço Private Connect, que fornece uma camada adicional de segurança para manter o tráfego privado. Essa abordagem combinada reduz efetivamente os riscos de exfiltração de dados, isolando o recurso do Google Cloud e controlando o acesso às suas redes VPC.
Configurar o acesso privado de back-end do plano compute VPC para o armazenamento em nuvem
O senhor pode configurar o Private Google Access ou o Private Serviço Connect para acessar de forma privada o recurso de armazenamento em nuvem a partir do seu plano compute VPC.
Adicione seus projetos de avião compute a um serviço VPC Service Controls Perimeter
Para cada Databricks workspace, o senhor pode adicionar os seguintes projetos do Google Cloud a um perímetro de serviço VPC Service Controls:
- plano de computação VPC projeto de host
- Projeto que contém o bucket de armazenamento workspace
- projetos de serviços que contêm o compute recurso do workspace
Com essa configuração, você deve conceder acesso aos dois itens a seguir:
- O recurso compute e o balde de armazenamento workspace do plano de controle Databricks
- Databricks-gerenciar as caçambas de armazenamento do plano compute VPC
O senhor pode conceder o acesso acima com as seguintes regras de entrada e saída no perímetro de serviço do VPC Service Controls acima.
Para obter os números de projeto para essas regras de entrada e saída, consulte Endereços IP e domínios para Databricks serviço e ativo.
Regra de entrada
O senhor deve adicionar uma regra de entrada para conceder acesso ao seu VPC Service Controls serviço Perimeter a partir do plano de controle Databricks VPC. Veja a seguir um exemplo de regra de entrada:
From:
Identities: ANY_IDENTITY
Source > Projects =
<regional-control-plane-vpc-host-project-number-1>
<regional-control-plane-vpc-host-project-number-2>
<regional-control-plane-uc-project-number>
<regional-control-plane-audit-log-delivery-project-number>
To:
Projects =
<list of compute plane Project Ids>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: compute.googleapis.com
Service methods: All actions
Service name: container.googleapis.com
Service methods: All actions
Service name: logging.googleapis.com
Service methods: All actions
Service name: cloudresourcemanager.googleapis.com
Service methods: All actions
Service name: iam.googleapis.com
Service methods: All actions
Para obter os números de projeto para suas regras de ingresso, consulte URIs de anexo e números de projeto do Private Service Connect (PSC).
Regra de saída
O senhor deve adicionar uma regra de saída para conceder acesso a Databricks-gerenciar buckets de armazenamento do plano compute VPC. Veja a seguir um exemplo de regra de saída:
From:
Identities: ANY_IDENTITY
To:
Projects =
<regional-control-plane-asset-project-number>
<regional-control-plane-vpc-host-project-number-1>
<regional-control-plane-vpc-host-project-number-2>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: artifactregistry.googleapis.com
Service methods:
artifactregistry.googleapis.com/DockerRead'
Para obter os números de projeto para suas regras de saída, consulte URIs de anexo e números de projeto do Private Service Connect (PSC).
Acesse data lake baldes de armazenamento protegidos por VPC Service Controls
O senhor pode adicionar os projetos do Google Cloud que contêm os buckets de armazenamento data lake a um VPC Service Controls serviço Perimeter.
O senhor não precisará de nenhuma regra adicional de entrada ou saída se os buckets de armazenamento data lake e os projetos Databricks workspace estiverem no mesmo perímetro de serviço VPC Service Controls.
Se os buckets de armazenamento data lake estiverem em um VPC Service Controls serviço Perimeter separado, o senhor deverá configurar o seguinte:
-
Regras de entrada em data lake serviço Perimeter:
- Permitir o acesso ao Cloud Storage a partir do plano Databricks compute VPC
- Permita o acesso ao Cloud Storage a partir da VPC do plano de controle do Databricks usando as IDs de projeto documentadas na página de regiões. Esse acesso será necessário à medida que o site Databricks introduzir novos recursos de governança de dados, como o Unity Catalog.
-
Regras de saída em Databricks compute plane serviço Perimeter:
- Permitir a saída para o Cloud Storage em projetos de data lake