Pular para o conteúdo principal

Habilite o serviço privado Connect para seu workspace

Saiba como proteger um workspace com conectividade privada e reduzir os riscos de exfiltração de dados ativando o Google Private Service Connect (PSC) no workspace. Este artigo inclui algumas etapas de configuração que podem ser executadas usando o console Databricks account ou o API.

Para obter informações sobre a referência API, consulte a referência da conta API em provisionamento.

nota

O senhor deve entrar em contato com a equipe Databricks account para solicitar acesso para habilitar o serviço privado Connect no seu workspace. Databricks O suporte para conectividade privada usando o serviço privado Connect está geralmente disponível.

Esse recurso requer o plano Premium.

Duas opções de Private Service Connect

Há duas maneiras de usar a conectividade privada para não expor o tráfego à rede pública. Este artigo discute como configurar um ou ambos os tipos de conexão do Private Service Connect:

  • Front-end Serviço privado Connect (usuário workspace para): Permite que os usuários se conectem ao Databricks aplicativo da Web, REST API e Databricks Connect API em uma nuvem privada virtual (VPC) endpoint endpoint.
  • Serviço privado de back-end Connect (plano clássico compute para o plano de controle) : Conecta o recurso Databricks classic compute em uma Nuvem Privada Virtual gerenciada pelo cliente (VPC) (o plano classic compute ) ao serviço central Databricks workspace (o plano de controle). O clustering se conecta ao plano de controle para dois destinos: Databricks REST APIs e o relé de conectividade de clustering seguro. Devido ao serviço de destino diferente, esse tipo de conexão Private serviço Connect envolve dois endpoints de interface VPC diferentes. Para obter informações sobre os planos de dados e de controle, consulte Databricks architecture overview.

O senhor pode implementar tanto o front-end quanto o back-end do Private Serviço Connect ou apenas um deles. Se o senhor implementar o serviço privado Connect para as conexões de front-end e back-end, poderá, opcionalmente, impor a conectividade privada para o workspace, o que significa que o Databricks rejeita qualquer conexão pela rede pública. Se você se recusar a implementar qualquer um desses tipos de conexão, não poderá impor esse requisito.

Para ativar o serviço privado Connect, o senhor deve criar objetos de configuração Databricks e adicionar novos campos aos objetos de configuração existentes.

important

Nesta versão, o workspace senhor VPC pode criar um novo com conectividade Private Serviço Connect usando um gerenciado pelo cliente que o senhor configurou. O senhor não pode adicionar a conectividade do Private Service Connect a um site existente workspace. O senhor não pode ativar o Private Service Connect em um workspace que usa um Databricks-gerenciar VPC.

O diagrama a seguir é uma visão geral do fluxo e da arquitetura da rede do Private Service Connect com Databricks.

Diagrama: Fluxo e arquitetura da rede do serviço privado Connect

Para obter diagramas mais detalhados e mais informações sobre o uso de um firewall, consulte Arquitetura de referência.

Benefícios de segurança

O uso do Private Service Connect ajuda a mitigar os seguintes riscos de exfiltração de dados:

  • Acesso a dados de um navegador na Internet ou de uma rede não autorizada usando o aplicativo da Web Databricks.
  • Acesso a dados de um cliente na Internet ou em uma rede não autorizada usando a API da Databricks.

Terminologia

Os seguintes termos do Google Cloud são usados neste guia para descrever a configuração do Databricks:

Terminologia do Google

Descrição

Serviço privado Connect (PSC)

Um recurso do Google Cloud que fornece conectividade privada entre as redes VPC e o serviço Google Cloud.

Projeto anfitrião

Se o senhor usar o que o Google chama de VPCs compartilhadas, que permitem usar um projeto diferente do Google Cloud para o VPC separado do ID do projeto principal do workspacepara o compute recurso, esse é o projeto no qual as VPCs são criadas. Isso se aplica tanto ao plano clássico compute VPC (para back-end do serviço privado Connect) quanto ao trânsito VPC (para front-end do serviço privado Connect)

Projeto de serviço

Se o senhor usar o que o Google chama de VPCs compartilhados, que permitem usar um projeto diferente do Google Cloud para o VPC separado do ID do projeto principal do workspacepara o compute recurso, este é o projeto para o workspace compute recurso.

Serviço privado Connect endpoint ou VPC endpoint

Uma conexão privada de uma rede VPC para um serviço, por exemplo, um serviço publicado por Databricks.

A tabela a seguir descreve uma terminologia importante.

Terminologia da Databricks

Descrição

Cliente Databricks

Um usuário em um navegador que acessa a UI da Databricks ou um cliente de aplicativo que acessa as APIs da Databricks.

VPC de trânsito

A rede VPC hospeda clientes que acessam o Databricks workspace WebApp ou APIs.

Front-end (usuário para o espaço de trabalho) Serviço privado Connect endpoint

O endpoint do Private Serviço Connect configurado na rede de trânsito VPC permite que os clientes se conectem de forma privada ao aplicativo da Web Databricks e ao APIs.

Back-end (plano clássico compute para o plano de controle) Serviço privado Conecte o endpoint

O ponto de extremidade Private serviço Connect configurado em sua rede VPC para permitir a comunicação privada entre o plano compute clássico e o plano de controle Databricks.

Clássico compute avião VPC

A rede VPC que hospeda o recurso compute do seu Databricks workspace. O senhor configura seu plano de gerenciar clientes compute VPC em sua organização do Google Cloud.

Privado workspace

Refere-se a um workspace em que as máquinas virtuais do plano compute clássico não têm nenhum endereço IP público. O ponto de extremidade workspace no plano de controle Databricks só pode ser acessado de forma privada a partir de redes VPC autorizadas ou endereços IP autorizados, como o VPC para o seu plano compute clássico ou suas VPCs de trânsito PSC.

Requisitos e limitações

Os seguintes requisitos e limitações se aplicam:

  • Somente novo espaço de trabalho : O senhor pode criar um novo workspace com conectividade Private serviço Connect. O senhor não pode adicionar a conectividade do Private Service Connect a um site existente workspace.

  • É necessário gerenciar o cliente VPC: O senhor deve usar um gerenciador de clientes VPC. O senhor precisa criar seu VPC no console do Google Cloud ou com outra ferramenta. Em seguida, no console Databricks account ou no API, o senhor cria uma configuração de rede que faz referência ao seu VPC e define campos adicionais específicos para o serviço privado Connect.

  • Habilite seu account : Databricks deve habilitar seu account para o recurso. Para habilitar o serviço privado Connect em um ou mais espaços de trabalho, entre em contato com a equipe Databricks account e solicite a habilitação em seu account. Forneça a região do Google Cloud e o ID do seu projeto de host para reservar uma cota para conexões do Private Service Connect. Depois que seu account estiver habilitado para o Serviço Privado Connect, use o console Databricks account ou o API para configurar seus objetos do Serviço Privado Connect e criar um novo espaço de trabalho.

  • Cotas : O senhor pode configurar até dois pontos de extremidade do Private serviço Connect para o serviço Databricks para cada projeto de host VPC. O senhor pode implantar planos clássicos compute para vários espaços de trabalho Databricks na mesma rede VPC. Nesse cenário, todos esses espaços de trabalho compartilharão o mesmo endpoint do Private Service Connect. Entre em contato com a equipe do account se essa limitação não funcionar para o senhor.

  • Não há conectividade entre regiões : Serviço privado Connect workspace componentes devem estar na mesma região, incluindo:

    • Rede VPC de trânsito e sub-redes
    • plano de computação VPC network and subnets
    • Espaço de trabalho do Databricks
    • Serviço privado Ponto de extremidade do Connect
    • Serviço privado Conectar endpoint sub-redes
  • O conjunto de dados de amostra não está disponível . O conjunto de dados de amostra Unity Catalog e o conjunto de dados Databricks não estão disponíveis quando o serviço privado de back-end Connect está configurado. Consulte Conjunto de dados de amostra.

Várias opções para topologia de rede

O senhor pode implantar um Databricks workspace privado com as seguintes opções de configuração de rede:

  • Hospedar usuários (clientes) do Databricks e o plano Databricks clássico compute na mesma rede : Nessa opção, o plano de trânsito VPC e compute VPC referem-se à mesma rede subjacente VPC. Se o senhor escolher essa topologia, todo o acesso a qualquer Databricks workspace a partir desse VPC deverá passar pela conexão front-end do Private Serviço Connect para esse VPC. Consulte Requisitos e limitações.
  • Hospede os usuários (clientes) do Databricks e o plano Databricks clássico compute em redes separadas : Nessa opção, o usuário ou o cliente do aplicativo pode acessar diferentes espaços de trabalho do Databricks usando diferentes caminhos de rede. Opcionalmente, o senhor pode permitir que um usuário em trânsito VPC acesse um workspace privado por meio de uma conexão Private Serviço Connect e também que usuários na Internet pública acessem o workspace.
  • Hospedar o plano compute para vários espaços de trabalho Databricks na mesma rede : Nessa opção, o plano compute VPC para vários espaços de trabalho Databricks refere-se à mesma rede subjacente VPC. Todos esses espaços de trabalho devem compartilhar o mesmo back-end Serviço privado Connect endpoint. Esse padrão de implantação pode permitir que o senhor configure um número menor de endpoints do Private Service Connect enquanto configura um grande número de workspaces.

O senhor pode compartilhar um trânsito VPC para vários espaços de trabalho. No entanto, cada site de trânsito VPC deve conter apenas espaços de trabalho que usam PSC de front-end ou apenas espaços de trabalho que não usam PSC de front-end. Devido à forma como a resolução de DNS funciona no Google Cloud, o senhor não pode usar os dois tipos de espaço de trabalho com um único trânsito VPC.

Configuração de segurança relacionada

O senhor também pode configurar os seguintes recursos de segurança de rede para manter a privacidade de seus dados e do ambiente compute:

  • Forneça um gerenciador de clientes VPC e use-o para compute recurso. Como o senhor controla a configuração, pode controlar a configuração do firewall para isolar as cargas de trabalho implantadas em Databricks.
  • Configure o serviço privado Connect endpoint e as ACLs de intervalo de IP para permitir apenas o acesso de redes autorizadas.
  • Use VPC Service Controls (VPC SC) para proteger seu recurso de armazenamento em nuvem (GCS), incluindo os buckets DBFS e data lake.
  • Adicione o plano compute VPC de seu Databricks workspace a um perímetro de VPC Service Controls serviço para limitar a saída para o recurso de Google Cloud Storage serviço.

Arquitetura de referência

Uma implementação do Databricks workspace inclui os seguintes caminhos de rede que o senhor pode proteger:

  • cliente Databricks em sua VPC de trânsito para o plano de controle do Databricks. Isso inclui o aplicativo da Web e o acesso à API REST.
  • Databricks compute plano VPC rede para o serviço do plano de controle Databricks. Isso inclui o relé de conectividade de clustering seguro e a conexão workspace para o ponto de extremidade REST API .
  • Databricks compute plano para armazenamento em um projeto Databricks-gerenciar.
  • Databricks compute plano de rede VPC para o servidor GKE API.
  • O plano de controle do Databricks para o armazenamento em seus projetos, incluindo o bucket DBFS.

É possível ter uma arquitetura sem firewall para restringir o tráfego de saída, idealmente usando um metastore externo. O tráfego de saída para um repositório de biblioteca pública não é possível pelo default, mas o senhor pode trazer seu próprio repositório de pacote espelhado localmente. O diagrama a seguir mostra uma arquitetura de rede para uma implementação completa (front-end e back-end) do serviço privado Connect sem firewalls:

Serviço privado Arquitetura de rede Connect sem firewall

O senhor também pode usar uma arquitetura de firewall e permitir a saída para repositórios de pacotes públicos e o metastore (opcional) Databricks-gerenciar. O diagrama a seguir mostra uma arquitetura de rede para uma implementação completa (front-end e back-end) do serviço privado Connect com um firewall para controle de saída:

Diagrama: Arquitetura de rede do serviço privado Connect com um firewall

Referência de anexos de serviços regionais

Para ativar o serviço privado Connect, o senhor precisa dos URIs de anexo de serviço para o seguinte endpoint de sua região:

  • O site workspace endpoint . Isso termina com o sufixo plproxy-psc-endpoint-all-ports. Isso tem um papel duplo. Isso é usado pelo serviço privado de back-end Connect para se conectar ao plano de controle para REST APIs. Isso também é usado pelo front-end do Private Service Connect para conectar seu trânsito VPC ao aplicativo da Web workspace e REST APIs.
  • O relé de conectividade de clustering seguro (SCC) endpoint . Isso termina com o sufixo ngrok-psc-endpoint. Isso é usado somente para o serviço privado de back-end Connect. Ele é usado para se conectar ao plano de controle para o relé de conectividade de clustering seguro (SCC).

Para obter os URIs de anexo de serviço workspace endpoint e SCC relay endpoint para sua região, consulte URIs de anexo de serviço privado Connect (PSC) e números de projeto.

Etapa 1: Habilite seu account para o serviço privado Connect

Antes que o Databricks possa aceitar conexões do Private Serviço Connect de seus projetos do Google Cloud, o senhor deve entrar em contato com a equipe do Databricks account e fornecer as seguintes informações para cada workspace onde deseja ativar o Private Serviço Connect:

  • ID da conta Databricks

    1. Como administrador do account, acesse o consoleDatabricks account.
    2. Na parte inferior do menu à esquerda (talvez seja necessário rolar a tela), clique no botão Usuário (o ícone da pessoa).
    3. Na janela pop-up que aparece, copie o ID do account clicando no ícone à direita do ID.

    Encontre seu account ID.

  • VPC ID do projeto de host do planocompute VPC , se o senhor estiver habilitando o serviço privado de back-end Connect

  • VPC ID do projeto de host do trânsito VPC , se o senhor estiver habilitando o serviço privado de front-end Connect

  • Região do workspace

important

Um representante do Databricks responderá com uma confirmação quando o Databricks estiver configurado para aceitar conexões do Private Service Connect de seus projetos do Google Cloud. Isso pode levar até três dias úteis.

Etapa 2: criar uma sub-rede

No plano compute VPC network, crie uma sub-rede especificamente para o endpoint Private serviço Connect. As instruções a seguir pressupõem o uso do console do Google Cloud, mas também é possível usar o gcloud CLI para realizar tarefas semelhantes.

Para criar uma sub-rede:

  1. No console de nuvem do Google Cloud, acesse a página da listaVPC.

  2. Clique em Adicionar sub-rede .

  3. Defina o nome, a descrição e a região.

  4. Se o campo Propósito estiver visível (talvez não esteja visível), escolha Nenhum :

    Defina o campo Propósito da sub-rede como Nenhum.

  5. Defina um intervalo de IP privado para a sub-rede, como 10.0.0.0/24.

important

Seus intervalos de IP não podem se sobrepor a nenhum dos seguintes:

  • Sub-rede da BYO VPC, intervalos de IPv4 secundários.

  • Sub-rede que contém o ponto de extremidade do Private Serviço Connect.

  • Intervalo de IP de clustering do GKE, que é um campo quando o senhor cria o Databricks workspace.

A página geralmente se parece com a seguinte:

Crie uma sub-rede. 6. Confirme se a sua sub-rede foi adicionada ao VPC view no console do Google Cloud para o seu VPC:

Liste todas as sub-redes.

Etapa 3: Criar o endpoint VPC

O senhor precisa criar um endpoint VPC que se conecte a Databricks serviço attachments. Os URLs dos anexos de serviço variam de acordo com a região workspace. As instruções a seguir pressupõem o uso do console do Google Cloud, mas também é possível usar o gcloud CLI para realizar tarefas semelhantes. Para obter instruções sobre como criar um endpoint VPC para o serviço attachments usando o gcloud CLI ou API, consulte os artigos do Google "Create a Private serviço Connect endpoint".

Na sub-rede que o senhor criou, crie o endpoint VPC para os seguintes anexos de serviço do seu plano compute VPC:

  • O site workspace endpoint. Isso termina com o sufixo plproxy-psc-endpoint-all-ports.
  • O relé de conectividade de clustering seguro endpoint. Isso termina com o sufixo ngrok-psc-endpoint

Para criar um VPC endpoint no console do Google Cloud:

  1. No console do Google Cloud, vá para Private serviço Connect.

  2. Clique no ponto de extremidade CONNECTED tab.

  3. Clique em + Conectar endpoint .

  4. Em Target , selecione Serviço publicado .

  5. Para o serviço de destino , digite o URI de anexo do serviço.

important

Consulte a tabela em Referência de anexos de serviço regional para obter os dois URIs de anexo de serviço Databricks para sua região workspace.

  1. Para o nome do endpoint, digite um nome a ser usado para o endpoint.

  2. Selecione uma rede VPC para o endpoint.

  3. Selecione uma sub-rede para o site endpoint. Especifique a sub-rede que o senhor criou para o endpoint do Private Serviço Connect.

    Especifique a sub-rede que o senhor criou para o endpoint VPC

  4. Selecione um endereço IP para o site endpoint. Se você precisar de um novo endereço IP:

    1. Clique no menu suspenso Endereço IP e selecione Criar endereço IP .
    2. Insira um nome e uma descrição opcional.
    3. Para um endereço IP estático, selecione Atribuir automaticamente ou Deixe-me escolher .
    4. Se você selecionou Deixe-me escolher , insira o endereço IP personalizado.
    5. Clique em Reservar .
  5. Selecione um namespace na lista suspensa ou crie um novo namespace. A região é preenchida com base na sub-rede selecionada.

  6. Clique em Add endpoint.

O endpoint do plano compute VPC para o URI de anexo do serviço workspace tem a seguinte aparência:

VPC endpoint do plano compute VPC para o URI de anexo do serviço workspace.

O endpoint do plano compute VPC para o URI de anexo do serviço workspace tem a seguinte aparência:

VPC endpoint do plano compute VPC para o URI de anexo do serviço de retransmissão do SCC.

Etapa 4: configurar o acesso privado de front-end

Para configurar o acesso privado de clientes Databricks para o serviço Private Connect de front-end:

  1. Criar uma rede VPC de trânsito ou reutilizar uma já existente.

  2. Crie ou reutilize uma sub-rede com um intervalo de IP privado que tenha acesso ao front-end Serviço privado Connect endpoint.

important

Garanta que seus usuários tenham acesso a VMs ou dispositivos nessa sub-rede.

  1. Crie um VPC endpoint do trânsito VPC para o anexo de serviço workspace (plproxy-psc-endpoint-all-ports).

    Para obter o nome completo a ser usado em sua região, consulte URIs de anexos e números de projeto do Private Service Connect (PSC) .

O formulário no console do Google Cloud para esse endpoint geralmente se parece com o seguinte:

Front-end VPC endpoint.

Etapa 5: registre seu endpoint VPC

Registre seu endpoint do Google Cloud usando o console Databricks account . O senhor também pode usar o endpointVPC Configurations API.

  1. Acesse o consoleDatabricks account.

  2. Clique no recurso Cloud tab e, em seguida, em VPC endpoint .

  3. Clique em registro VPC endpoint .

  4. Para cada um dos seus endpoints do Private Service Connect, preencha os campos necessários para registrar um novo VPC endpoint:

    • VPC endpoint name : Um nome legível para identificar o site VPC endpoint. Databricks Recomenda-se que o senhor use o mesmo ID do seu serviço privado Connect endpoint, mas não é necessário que eles coincidam.
    • Região : A região do Google Cloud onde esse serviço privado Connect endpoint está definido.
    • ID do projeto de rede VPC do Google Cloud : A ID do projeto do Google Cloud em que esse endpoint está definido. Para conectividade de back-end, esse é o ID do projeto para a rede workspace VPC . Para conectividade front-end, esse é o ID do projeto da VPC em que as conexões do usuário se originam, o que às vezes é chamado de VPC de trânsito.

    registro e endpoint.

A tabela a seguir mostra quais informações o senhor precisa usar para cada endpoint se estiver usando tanto o back-end quanto o front-end do Private Service Connect.

Tipo de endpoint

campo

Exemplo

Trânsito front-end VPC endpoint (plproxy-psc-endpoint-all-ports)

VPC endpoint nome (Databricks recomenda que o nome corresponda ao ID do Google Cloud endpoint )

psc-demo-user-cp

ID do projeto de rede VPC do Google Cloud

databricks-dev-entd-demo

Região do Google Cloud

us-east4

Back-end compute plane VPC REST/workspace endpoint (plproxy-psc-endpoint-all-ports)

VPC endpoint nome (Databricks recomenda que o nome corresponda ao ID do Google Cloud endpoint )

psc-demo-dp-rest-api

ID do projeto de rede VPC do Google Cloud

databricks-dev-xpn-host

Região do Google Cloud

us-east4

Back-end compute plane VPC SCC relay endpoint (psc-demo-dp-ngrok)

VPC endpoint nome (Databricks recomenda que o nome corresponda ao ID do Google Cloud endpoint )

psc-demo-dp-ngrok

ID do projeto de rede VPC do Google Cloud

databricks-dev-xpn-host

Região do Google Cloud

us-east4

Quando terminar, o senhor pode usar a lista de endpoints VPC no console account para revisar a lista de endpoints e confirmar as informações. Em geral, ficaria assim:

Revise todos os pontos de extremidade registrados.

Etapa 6: criar um objeto de configurações de acesso privado do Databricks

Crie um objeto de configurações de acesso privado que defina várias configurações do Private Service Connect para seu workspace. Esse objeto será anexado ao seu workspace. Um objeto de configurações de acesso privado pode ser anexado a vários espaços de trabalho. Para criar objetos de configurações de acesso privado, consulte Criar um objeto de configurações de acesso privado.

Etapa 7: criar uma configuração de rede

Crie uma configuração de rede Databricks, que encapsula informações sobre o seu cliente-gerenciar VPC para o seu workspace, usando o console account. Esse objeto será anexado ao seu workspace. O senhor também pode usar a API de configurações de rede.

  1. Se o senhor ainda não criou o site VPC para o seu workspace, faça isso agora.

  2. Acesse o consoleDatabricks account.

  3. Clique no recurso Cloud tab e, em seguida, em Network configurations (Configurações de rede ).

  4. Clique em Adicionar configuração de rede .

    Crie uma configuração de rede.

campo

Valor de exemplo

Nome da configuração de rede

psc-demo-network

ID do projeto GCP da rede

databricks-dev-xpn-host

Nome da VPC

psc-demo-dp-vpc

Nome da sub-rede

subnet-psc-demo-dp-vpc

Região da sub-rede

us-east4

Nome do intervalo de IP secundário para pods GKE

pod

Nome do intervalo de IP secundário para serviços GKE

svc

Endpoint VPC para transmissão segura da conectividade do cluster

psc-demo-dp-ngrok

VPC endpoint Para REST APIs (conexão back-end para workspace)

psc-demo-dp-rest-api

Etapa 8: Criar um workspace

Crie um workspace usando a configuração de rede que o senhor criou usando o console account. O senhor também pode usar o espaço de trabalho API.

  1. Acesse o consoleDatabricks account.

  2. Clique no espaço de trabalho tab.

  3. Clique em Create workspace .

    Crie um workspace.

  4. Defina esses campos padrão do site workspace:

    • Nome do workspace
    • Região
    • ID do projeto workspace compute da nuvem VPC do Google (o projeto do recurso do, que pode ser diferente do ID do projeto do seu).
    • Certifique-se de que a opção Enable private clustering (Ativar clustering privado ) esteja marcada.
    • Faixa de IP para o recurso mestre GKE
  5. Definir campos específicos do Private Service Connect:

    1. Clique em Configurações avançadas .
    2. No campo Configuração de rede , escolha a configuração de rede que você criou nas etapas anteriores.
    3. No campo Conectividade privada , escolha o objeto de configurações de acesso privado que você criou nas etapas anteriores. Observe que um objeto de configurações de acesso privado pode ser anexado a vários espaços de trabalho.
  6. Clique em Salvar .

Etapa 9: Validar a configuração do site workspace

Depois de criar o workspace, volte para a página workspace e encontre o recém-criado workspace. Normalmente, leva de 30 segundos a 3 minutos para que o site workspace passe do status PROVISIONING para o status RUNNING. Quando o status mudar para RUNNING, o site workspace estará configurado com êxito.

O senhor pode validar a configuração usando o console Databricks account :

  1. Clique em Cloud recurso e, em seguida, em Configurações de rede . Encontre a configuração de rede do seu VPC usando o console account. Revise-a para confirmar se todos os campos estão corretos.

  2. Clique em workspace e localize o site workspace. Confirme se o site workspace está em execução:

    Valide seu workspace.

dica

Se o senhor quiser revisar o conjunto de espaços de trabalho usando o API, faça uma solicitação GET para o https://accounts.gcp.databricks.com/api/2.0/accounts/<account-id>/workspaces endpoint.

Etapa 10: Configurar o DNS

As seções a seguir descrevem as etapas separadas da configuração do DNS front-end e back-end.

Configuração de DNS front-end

Esta seção mostra como criar uma zona DNS privada para conectividade front-end.

O senhor pode compartilhar um trânsito VPC para vários espaços de trabalho. No entanto, cada site de trânsito VPC deve conter apenas espaços de trabalho que usam PSC de front-end ou apenas espaços de trabalho que não usam PSC de front-end. Devido à forma como a resolução de DNS funciona no Google Cloud, o senhor não pode usar os dois tipos de espaço de trabalho com um único trânsito VPC.

  1. Certifique-se de que o senhor tenha o URL workspace para o seu implantado Databricks workspace. Isso tem um formato semelhante aohttps://33333333333333.3.gcp.databricks.com. O senhor pode obter esse URL no navegador da Web quando estiver visualizando um workspace ou no consoleaccount em sua lista de espaços de trabalho.

  2. Crie uma zona DNS privada que inclua a rede VPC de trânsito. Usando o Google Cloud Console na página DNS da nuvem, clique em CREATE ZONE (Criar zona ).

    1. No campo Nome do DNS , digite gcp.databricks.com.
    2. No campo Networks (Redes ), escolha sua rede VPC de trânsito.
    3. Clique em Criar .

    Crie uma zona privada

  3. Crie registros DNS A para mapear seu URL workspace para o IP plproxy-psc-endpoint-all-ports Serviço privado Connect endpoint IP.

    1. Localize o IP do serviço privado Connect endpoint para o plproxy-psc-endpoint-all-ports serviço privado Connect endpoint. Neste exemplo, suponha que o IP do serviço privado Connect endpoint psc-demo-user-cp seja 10.0.0.2.
    2. Crie um registro A para mapear o URL workspace para o IP do serviço privado Connect endpoint. Nesse caso, mapeie seu nome de domínio exclusivo workspace (como 33333333333333333.3.gcp.databricks.com) para o endereço IP do serviço privado Connect endpoint, que em nosso exemplo anterior era 10.0.0.2, mas seu número pode ser diferente.
    3. Crie um registro A para mapear dp-<workspace-url> para o serviço privado Connect endpoint IP. Nesse caso, usando o exemplo do URL workspace, ele mapearia dp-333333333333333.3.gcp.databricks.com para 10.0.0.2, mas esses valores podem ser diferentes para o senhor.
  4. Se os usuários usarem um navegador da Web no usuário VPC para acessar o workspace, para dar suporte à autenticação, o senhor deverá criar um registro A para mapear <workspace-gcp-region>.psc-auth.gcp.databricks.com para 10.0.0.2. Nesse caso, mapeie us-east4.psc-auth.gcp.databricks.com para 10.0.0.2. Para a conectividade de front-end, essa etapa normalmente é necessária, mas se o senhor planejar a conectividade de front-end da rede de trânsito somente para APIs REST (não para acesso do usuário do navegador da Web), poderá omitir essa etapa.

O seguinte mostra como o console do Google Cloud mostra um endpoint aceito para a configuração do DNS do serviço privado front-end Connect:

Confirmar se um endpoint foi aceito.

A configuração de DNS front-end da sua zona com registros A que mapeiam para o URL workspace e o serviço de autenticação Databricks geralmente se parece com o seguinte:

Configuração do DNS front-end para mapear seu URL workspace.

Configuração de DNS de back-end

Esta seção mostra como criar uma zona DNS privada que inclui a rede compute plane VPC. O senhor precisa criar registros DNS para mapear o URL workspace para o IP plproxy-psc-endpoint-all-ports Private serviço Connect endpoint:

  1. Certifique-se de que o senhor tenha o URL workspace para o seu implantado Databricks workspace. Isso tem um formato semelhante aohttps://33333333333333.3.gcp.databricks.com. O senhor pode obter esse URL no navegador da Web quando estiver visualizando um workspace ou no consoleaccount em sua lista de espaços de trabalho.

  2. Localize o IP do serviço privado Connect endpoint para o plproxy-psc-endpoint-all-ports serviço privado Connect endpoint. Use uma ferramenta como nslookup para obter o endereço IP.

    Queremos mapear o IP do serviço privado Connect endpoint psc-demo-dp-rest-api para 10.10.0.2.

    O seguinte mostra como o console do Google Cloud mostra um endpoint aceito para a configuração do DNS do serviço privado back-end Connect:

    Um endpoint de back-end aceito que inclui o endereço IP de destino.

  3. Crie os seguintes mapeamentos de registros A:

    • Seu domínio workspace (como 33333333333333.3.gcp.databricks.com) para 10.10.0.2
    • Seu domínio workspace com prefixo dp-, como dp-33333333333333.3.gcp.databricks.com) para 10.10.0.2
  4. Na mesma zona de gcp.databricks.com, crie um registro DNS privado para mapear o URL de retransmissão da SCC para o endpoint de retransmissão da SCC ngrok-psc-endpoint usando o IP do endpoint.

    1. O URL de retransmissão do SCC está no formato: tunnel.<workspace-gcp-region>.gcp.databricks.com. Neste exemplo, o URL de retransmissão do SCC é tunnel.us-east4.gcp.databricks.com.
    2. Localize o IP do serviço privado Connect endpoint para o ngrok-psc-endpoint serviço privado Connect endpoint. Neste exemplo, o IP do serviço privado Connect endpoint psc-demo-dp-ngrok é 10.10.0.3.
    3. Crie um registro A para mapear tunnel.us-east4.gcp.databricks.com para 10.10.0.3.

A lista de registros A em sua zona geralmente se parece com a seguinte:

Configuração de DNS de back-end para se conectar ao site workspace.

Valide sua configuração de DNS

Em suas redes VPC, verifique se o DNS está configurado corretamente:

Em sua rede de trânsito VPC, use a ferramenta nslookup para confirmar que os seguintes URLs agora são resolvidos para o IP do front-end Private serviço Connect endpoint.

  • <workspace-url>
  • dp-<workspace-url>
  • <workspace-gcp-region>.psc-auth.gcp.databricks.com

Em sua rede compute plane VPC, use a ferramenta nslookup para confirmar que os URLs a seguir são resolvidos para o IP correto do Private Serviço Connect endpoint

  • <workspace-url> mapeia para o serviço privado Connect endpoint IP para o endpoint com plproxy-psc-endpoint-all-ports em seu nome.
  • dp-<workspace-url> mapeia para o serviço privado Connect endpoint IP para o endpoint com plproxy-psc-endpoint-all-ports em seu nome.
  • tunnel.<workspace-gcp-region>.gcp.databricks.com mapeia para o serviço privado Connect endpoint IP para o endpoint com ngrok-psc-endpoint em seu nome.

Nome DNS intermediário para o serviço privado Connect

O nome DNS intermediário para o espaço de trabalho que habilita o serviço Private Connect de back-end ou front-end é <workspace-gcp-region>.psc.gcp.databricks.com. Isso permite que o senhor separe o tráfego para o espaço de trabalho que eles precisam acessar, de outros Databricks serviços que não suportam o Private Service Connect, como a documentação.

Etapa 11 (opcional): configurar o acesso ao metastore

recursos como as listas de controle de acesso (ACLs) do site SQL exigem acesso ao metastore. Como o plano compute VPC não pode acessar a Internet pública pelo default, o senhor deve criar um NAT de nuvem com acesso ao metastore. Consulte Serviço de plano de controle endpoint Endereços IP por região.

Além disso, você pode configurar um firewall para impedir o tráfego de entrada e saída de todas as outras fontes. Como alternativa, se o senhor não quiser configurar um Cloud NAT para a VPC, outra opção é configurar uma conexão privada com um metastore externo.

NAT na nuvem

Etapa 12 (opcional): Configurar listas de acesso IP

As conexões de front-end do usuário com o espaço de trabalho do Private Serviço Connect permitem o acesso público pelo site default.

O senhor pode configurar para permitir ou negar o acesso público a um workspace quando criar um objeto de configurações de acesso privado. Consulte a Etapa 6: criar um objeto de configurações de acesso privado do Databricks.

Se o senhor optar por negar o acesso público, não será permitido nenhum acesso público ao site workspace.

Se o senhor optar por permitir o acesso público, poderá configurar listas de acesso IP para o seu Databricks workspace. As listas de acesso IP só se aplicam a solicitações pela Internet originadas de endereços IP públicos. O senhor não pode usar listas de acesso IP para bloquear o tráfego privado do serviço privado Connect.

Para bloquear todo o acesso da Internet:

  1. Habilite as listas de acesso IP para o site workspace. Consulte Configurar listas de acesso IP para o espaço de trabalho.
  2. Crie uma lista de acesso IP BLOCK 0.0.0.0/0.

Observe que as solicitações de redes VPC conectadas usando o serviço privado Connect não são afetadas pelas listas de acesso IP. As conexões são autorizadas usando a configuração do nível de acesso do Private Service Connect. Consulte a seção relacionada Etapa 6: criar um objeto de configurações de acesso privado do Databricks.

Etapa 13 (opcional): Configure VPC Service Controls

Além de usar o Private serviço Connect para se conectar de forma privada ao serviço Databricks, o senhor pode configurar VPC Service Controls para manter seu tráfego privado e reduzir os riscos de exfiltração de dados.

Configurar o acesso privado de back-end do plano compute VPC para o armazenamento em nuvem

O senhor pode configurar o Private Google Access ou o Private Serviço Connect para acessar de forma privada o recurso de armazenamento em nuvem a partir do seu plano compute VPC.

Adicione seus projetos de avião compute a um serviço VPC Service Controls Perimeter

Para cada Databricks workspace, o senhor pode adicionar os seguintes projetos do Google Cloud a um perímetro de serviço VPC Service Controls:

  • plano de computação VPC projeto de host
  • Projeto que contém o bucket de armazenamento workspace
  • projetos de serviços que contêm o compute recurso do workspace

Com essa configuração, você precisa conceder acesso aos dois itens a seguir:

  • O recurso compute e o balde de armazenamento workspace do plano de controle Databricks
  • Databricks-gerenciar as caçambas de armazenamento do plano compute VPC

O senhor pode conceder o acesso acima com as seguintes regras de entrada e saída no perímetro de serviço do VPC Service Controls acima.

Para obter os números de projeto para essas regras de entrada e saída, consulte URIs de anexo e números de projeto do Private Service Connect (PSC).

Regra de entrada

O senhor precisa adicionar uma regra de entrada para conceder acesso ao seu VPC Service Controls serviço Perimeter a partir do plano de controle Databricks VPC. Veja a seguir um exemplo de regra de entrada:

From:
Identities: ANY_IDENTITY
Source > Projects =
<regional-control-plane-vpc-host-project-number>
<regional-control-plane-uc-project-number>
<regional-control-plane-audit-log-delivery-project-number>
To:
Projects =
<list of compute plane Project Ids>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: compute.googleapis.com
Service methods: All actions
Service name: container.googleapis.com
Service methods: All actions
Service name: logging.googleapis.com
Service methods: All actions
Service name: cloudresourcemanager.googleapis.com
Service methods: All actions
Service name: iam.googleapis.com
Service methods: All actions

Regra de saída

O senhor precisa adicionar uma regra de saída para conceder acesso a Databricks-gerenciar buckets de armazenamento do plano compute VPC. Veja a seguir um exemplo de regra de saída:

From:
Identities: ANY_IDENTITY
To:
Projects =
<regional-control-plane-asset-project-number>
<regional-control-plane-vpc-host-project-number>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: artifactregistry.googleapis.com
Service methods:
artifactregistry.googleapis.com/DockerRead'

Acesse data lake baldes de armazenamento protegidos por VPC Service Controls

O senhor pode adicionar os projetos do Google Cloud que contêm os buckets de armazenamento data lake a um VPC Service Controls serviço Perimeter.

O senhor não precisará de nenhuma regra adicional de entrada ou saída se os buckets de armazenamento data lake e os projetos Databricks workspace estiverem no mesmo perímetro de serviço VPC Service Controls.

Se os buckets de armazenamento data lake estiverem em um VPC Service Controls serviço Perimeter separado, o senhor precisará configurar o seguinte:

  • Regras de entrada em data lake serviço Perimeter:

    • Permitir o acesso ao Cloud Storage a partir do plano Databricks compute VPC
    • Permita o acesso ao Cloud Storage a partir da VPC do plano de controle do Databricks usando as IDs de projeto documentadas na página de regiões. Esse acesso será necessário à medida que o site Databricks introduzir novos recursos de governança de dados, como o Unity Catalog.
  • Regras de saída em Databricks compute plane serviço Perimeter:

    • Permitir a saída para o Cloud Storage em projetos de data lake