Pular para o conteúdo principal

Configurar a conectividade privada com os Databricks

Esta página aborda a configuração dos passos para conectividade privada front-end entre usuários e seu espaço de trabalho Databricks . Para adicionar segurança à implementação serverless do seu workspace, você deve usar conectividade privada de front-end.

Habilite o serviço Private Connect de front-end para o seu workspace

Estabeleça conexões seguras e privadas de seus VPCs do Google Cloud ou redes locais para Databricks serviço usando o front-end Private serviço Connect, que roteia o tráfego por meio de uma interface VPC endpoint em vez da Internet pública.

Com o front-end Private serviço Connect, o senhor pode:

  • Configure o acesso privado : Front-end O serviço privado Connect suporta conexões com o aplicativo da Web Databricks, REST API e Databricks Connect API.
  • Habilitar acesso privado : configure o serviço Private Connect do front-end durante a criação de um novo workspace ou habilite-o em um existente.
  • Aplicar conectividade privada obrigatória : para aplicar conexões privadas para um workspace, você deve configurar a conectividade privada dos usuários para Databricks e do plano de controle para o plano compute .

Para usar a API REST, consulte a referência da API de configurações de acesso privado.

nota

Entre em contato com sua equipe account Databricks para solicitar acesso para habilitar o Private serviço Connect no seu workspace. O suporte Databricks para conectividade privada usando o Private serviço Connect está geralmente disponível.

Requisitos e limitações

Para ativar o front-end do Private Service Connect, o senhor deve atender aos seguintes requisitos:

  • Seu Databricks account deve estar no plano Enterprise.
  • Somente para novos espaços de trabalho : o senhor deve adicionar a conectividade do Private Service Connect ao criar o workspace. O senhor não pode adicionar a conectividade do Private Service Connect a um site existente workspace.
  • É necessário gerenciar o cliente VPC: O senhor deve usar um gerenciador de clientes VPC. O senhor deve criar seu VPC no console do Google Cloud ou em outra ferramenta. Quando o VPC estiver disponível, use o console Databricks account ou API para criar uma configuração de rede. Essa configuração deve fazer referência ao seu novo VPC e incluir configurações específicas para o serviço privado Connect.
  • Habilite sua account : usar o Private serviço Connect requer habilitação inicial pelo Databricks. Entre em contato com sua equipe account Databricks para solicitar a ativação. Forneça a região do Google Cloud e o ID do projeto host para que Databricks possa reservar a cota de conexão necessária do Private Serviço Connect. Após receber a confirmação de que sua account está habilitada, configure os objetos do Private serviço Connect e crie o espaço de trabalho por meio do console account ou API Databricks .
  • Cotas : É possível configurar até dois endpoints do serviço Connect privado por região por projeto host VPC para Databricks. Vários espaços de trabalho do Databricks no mesmo VPC e região devem compartilhar esses pontos de extremidade, pois os pontos de extremidade do serviço privado Connect são recursos específicos da região. Caso essa cota represente uma limitação para a sua configuração, entre em contato com a equipe de suporte do account.
  • Não há conectividade entre regiões : Serviço privado Connect workspace componentes devem estar na mesma região, incluindo:
    • Rede e sub-redes de VPC de trânsito.
    • plano de computação VPC rede e sub-redes.
    • Databricks workspace.
    • Serviço privado Connect endpoint.
    • Serviço privado Conecte endpoint sub-redes.

Várias opções para topologia de rede

Ao implantar um Databricks workspace privado, o senhor deve escolher uma das seguintes opções de configuração de rede:

  • Hospedar usuários (clientes) Databricks e o plano Databricks compute na mesma rede : Nesta opção, o trânsito VPC e o plano compute VPC referem-se à mesma rede VPC subjacente. Se você selecionar esta topologia, todo o acesso a qualquer Databricks workspace a partir desse VPC deverá passar pela conexão front-end Private serviço Connect para esse VPC. Consulte Requisitos e limitações.
  • Hospedar usuários (clientes) Databricks e o plano Databricks compute em redes separadas : nesta opção, o usuário ou cliente do aplicativo pode acessar diferentes áreas de trabalho Databricks usando diferentes caminhos de rede. VPC Opcionalmente, permita que um usuário na Internet de trânsito acesse um site privado workspace por meio de uma conexão de serviço privado e também permita que usuários na Internet pública acessem o site workspace.

Não é possível misturar áreas de trabalho que utilizam o serviço privado Connect front-end com aquelas que não o utilizam dentro do mesmo trânsito VPC. Embora seja possível compartilhar um VPC de trânsito em várias áreas de trabalho, todas as áreas de trabalho no VPC de trânsito devem ser do mesmo tipo, ou seja, todas devem utilizar o serviço Connect privado front-end ou nenhuma deve utilizá-lo. Esse requisito se deve às especificidades da resolução de DNS no Google Cloud.

Referência de anexos de serviços regionais

Para ativar o serviço privado de front-end Connect, o senhor precisa dos URIs de anexo de serviço para o workspace endpoint de sua região. O URI termina com o sufixo plproxy-psc-endpoint-all-ports. Esse endpoint tem uma função dupla. Ele é usado pelo front-end Private serviço Connect para conectar seu trânsito VPC ao aplicativo da Web workspace e REST APIs, e também é usado pelo back-end Private serviço Connect para se conectar ao plano de controle para REST APIs.

Para encontrar o URI do anexo workspace endpoint e do serviço para sua região, consulte Endereços IP e domínios para Databricks serviço e ativo.

Etapa 1: Habilite seu account para o serviço privado Connect

Antes que o Databricks possa aceitar conexões do Private Serviço Connect de seus projetos do Google Cloud, o senhor deve entrar em contato com a equipe do Databricks account e fornecer as seguintes informações para cada workspace onde deseja ativar o Private Serviço Connect:

  • ID da conta Databricks

    1. Como administrador do account, acesse o consoleDatabricks account.
    2. No canto superior direito, clique no ícone do perfil do usuário.
    3. No menu, clique no ícone de cópia para copiar o ID do account.
  • VPC Host ID do projeto da VPC de trânsito

  • Região do workspace

Um representante do Databricks responderá com uma confirmação quando o Databricks estiver configurado para aceitar conexões do Private Service Connect de seus projetos do Google Cloud. Isso pode levar até três dias úteis.

Etapa 2: criar uma sub-rede

No plano compute VPC network, crie uma sub-rede especificamente para o endpoint Private serviço Connect. As instruções a seguir pressupõem que o senhor esteja usando o console do Google Cloud, mas também é possível usar o site gcloud CLI para realizar tarefas semelhantes.

Para criar uma sub-rede:

  1. No console de nuvem do Google Cloud, acesse a página da listaVPC.

  2. Clique em Adicionar sub-rede .

  3. Defina o nome, a descrição e a região.

  4. Se o campo Propósito estiver visível (talvez não esteja visível), escolha Nenhum :

  5. Defina um intervalo de IP privado para a sub-rede, como 10.0.0.0/24. É necessário alocar espaços IP suficientes para hospedar seu endpoint do serviço Connect privado. Seus intervalos de IP não podem se sobrepor a nenhum dos seguintes:

    • Sub-rede da BYO VPC.
    • Sub-rede que contém o ponto de extremidade do Private Service Connect.
  6. Confirme se a sua sub-rede foi adicionada ao VPC view no console do Google Cloud para o seu VPC:

    Liste todas as sub-redes.

Etapa 3: configurar o acesso privado de front-end

Para configurar o acesso privado de clientes Databricks para o serviço Private Connect de front-end:

  1. Criar uma rede VPC de trânsito ou reutilizar uma já existente.

  2. Crie ou reutilize uma sub-rede com um intervalo de IP privado que tenha acesso ao front-end Serviço privado Connect endpoint.

important

Verifique se seus usuários têm acesso às VMs ou recursos compute nessa sub-rede.

  1. Crie um VPC endpoint do trânsito VPC para o anexo de serviço workspace (plproxy-psc-endpoint-all-ports).

    Para obter o nome completo a ser usado em sua região, consulte Endereços IP e domínios para Databricks serviço e ativo.

Etapa 4: registre seu endpoint VPC

Registre seu endpoint do Google Cloud usando o console Databricks account . O senhor também pode usar o endpointVPC Configurations API.

  1. Acesse o consoleDatabricks account.

  2. Clique no recurso Cloud tab e, em seguida, em VPC endpoint .

  3. Clique em registro VPC endpoint .

  4. Para cada um dos seus endpoints do Private Service Connect, preencha os campos necessários para registrar um novo VPC endpoint:

    • VPC endpoint name : Um nome legível para identificar o VPC endpoint. Databricks recomenda o uso do mesmo nome do seu serviço privado Connect endpoint ID, mas não é necessário que eles correspondam.
    • Região : A região do Google Cloud onde esse serviço privado Connect endpoint está definido.
    • ID do projeto de rede VPC do Google Cloud : A ID do projeto do Google Cloud em que esse endpoint está definido. Esse é o ID do projeto da VPC de onde se originam as conexões do usuário, que às vezes é chamada de VPC de trânsito.

A tabela a seguir mostra as informações que o senhor precisa para o endpoint.

Tipo de endpoint

campo

Exemplo

Trânsito front-end VPC endpoint (plproxy-psc-endpoint-all-ports)

VPC endpoint nome (Databricks recomenda que o nome corresponda ao ID do Google Cloud endpoint )

psc-demo-user-cp

ID do projeto de rede VPC do Google Cloud

databricks-dev-entd-demo

Região do Google Cloud

us-east4

Quando terminar, utilize a lista de pontos finais “ VPC ” no console “ account ” para revisar a lista de pontos finais e confirmar as informações.

Etapa 5: criar um objeto de configurações de acesso privado do Databricks

Crie um objeto de configurações de acesso privado que defina várias configurações do serviço privado Connect para o seu workspace. Este objeto está anexado ao seu workspace. É possível anexar um objeto de configurações de acesso privado a vários espaços de trabalho.

  1. Como administrador do account, acesse o console account.

  2. Na barra lateral, clique em Recurso na nuvem .

  3. Clique em Configurações de acesso privado .

  4. Clique em Adicionar configuração de acesso privado .

  5. Digite um nome para seu novo objeto de configurações de acesso privado.

  6. Selecione a mesma região do site workspace.

  7. Defina a opção Acesso público ativado . Isso não pode ser alterado após a criação do objeto de configurações de acesso privado.

    • Se o acesso público estiver ativado , os usuários poderão configurar as listas de acesso IP para permitir ou bloquear o acesso público (da Internet pública) ao espaço de trabalho que usa esse objeto de configurações de acesso privado.
    • Se o acesso público estiver desativado , nenhum tráfego público poderá acessar o espaço de trabalho que usa esse objeto de configurações de acesso privado. As listas de acesso IP não afetam o acesso público.

    Em ambos os casos, as listas de acesso IP não podem bloquear o tráfego privado do serviço privado Connect porque as listas de acesso controlam apenas o acesso da Internet pública.

  8. Selecione um nível de acesso privado que restrinja o acesso a conexões autorizadas do serviço privado Connect:

    • conta : Qualquer endpoint VPC registrado em seu Databricks account pode acessar este workspace. Esse é o valor default.
    • ponto final : Somente o ponto final VPC que você especificar poderá acessar o workspace. Se você selecionar este valor, escolha entre os seus endpoints VPC registrados.
  9. Clique em Adicionar configuração de acesso privado .

Etapa 6: criar uma configuração de rede

Crie uma configuração de rede Databricks que contenha informações sobre sua VPC gerenciada pelo cliente para seu workspace. Este objeto está anexado ao seu workspace. Você também pode usar a API de configurações de rede.

  1. Acesse o consoleDatabricks account.
  2. Clique no recurso Cloud tab e, em seguida, em Network configurations (Configurações de rede ).
  3. Clique em Adicionar configuração de rede .

A tabela a seguir mostra as informações que o senhor precisa usar para cada endpoint.

campo

Valor de exemplo

Nome da configuração de rede

psc-demo-network

ID do projeto GCP da rede

databricks-dev-xpn-host

Nome da VPC

psc-demo-dp-vpc

Nome da sub-rede

subnet-psc-demo-dp-vpc

Região da sub-rede

us-east4

Nome do intervalo de IP secundário para pods GKE

pod

Nome do intervalo de IP secundário para serviços GKE

svc

Endpoint VPC para transmissão segura da conectividade do cluster

psc-demo-dp-ngrok

VPC endpoint Para REST APIs (conexão back-end para workspace)

psc-demo-dp-rest-api

Etapa 7: Criar um workspace

Crie um objeto de configuração de rede ( workspace ) que utilize a configuração de rede criada com o console de gerenciamento de rede ( account ). Também é possível utilizar o espaço de trabalho API.

  1. Acesse o consoleDatabricks account.

  2. Clique no espaço de trabalho tab.

  3. Clique em Create workspace .

    Crie um workspace.

  4. Defina esses campos padrão do site workspace:

    • nome do espaço de trabalho.
    • região do espaço de trabalho.
    • ID do projeto do Google Cloud (o projeto para o recurso compute do workspace, que pode ser diferente do ID do projeto para sua VPC).
  5. Definir campos específicos do Private Service Connect:

    1. Clique em Configurações avançadas .
    2. No campo Configuração de rede , escolha a configuração de rede que você criou nas etapas anteriores.
    3. No campo Conectividade privada , escolha o objeto de configurações de acesso privado que você criou nas etapas anteriores. O senhor pode anexar um objeto de configurações de acesso privado a vários espaços de trabalho.
  6. Clique em Salvar .

Etapa 8: Validar a configuração do site workspace

Depois de criar o workspace, retorne à página workspace e encontre o recém-criado workspace. Normalmente, leva de 30 segundos a 3 minutos para que o site workspace passe do status PROVISIONING para o status RUNNING. Depois que o status mudar para RUNNING, seu workspace estará configurado com sucesso.

Valide a configuração utilizando o console Databricks account :

  1. Clique em Cloud recurso e, em seguida, em Configurações de rede . Encontre a configuração de rede para sua VPC e confirme se todos os campos estão corretos.

  2. Clique em workspace e localize o site workspace. Confirme se o site workspace está em execução:

    Valide seu workspace.

dica

Se o senhor quiser revisar o conjunto de espaços de trabalho usando o API, faça uma solicitação GET para o https://accounts.gcp.databricks.com/api/2.0/accounts/<account-id>/workspaces endpoint. Veja Obter todo o espaço de trabalho.

Etapa 9: Configurar o DNS

Crie uma zona DNS privada para conectividade front-end. Embora seja possível compartilhar um VPC de trânsito entre vários espaços de trabalho na mesma região, ele deve conter exclusivamente espaços de trabalho que utilizam PSC front-end ou aqueles que não utilizam, pois a resolução DNS do Google Cloud não suporta a mistura de ambos os tipos em um único VPC de trânsito.

  1. Verifique se você tem a URL do workspace para o seu workspace do Databricks implantado, no formato https://33333333333333.3.gcp.databricks.com. Obtenha esta URL no navegador da web quando estiver visualizando um workspace ou no consoleaccount na lista de espaços de trabalho.

  2. Crie uma zona DNS privada que inclua a rede VPC de trânsito. Na página Cloud DNS no Google Cloud Console, clique em CRIAR ZONA .

    1. No campo Nome do DNS , digite gcp.databricks.com.
    2. No campo Networks (Redes ), escolha sua rede VPC de trânsito.
    3. Clique em Criar .
  3. Crie registros DNS A para mapear seu URL workspace para o IP do serviço privado plproxy-psc-endpoint-all-ports Connect endpoint.

    1. Localize o IP do serviço privado Connect endpoint para o plproxy-psc-endpoint-all-ports serviço privado Connect endpoint. Neste exemplo, suponha que o IP do serviço privado Connect endpoint psc-demo-user-cp seja 10.0.0.2.
    2. Crie um registro A para mapear o URL workspace para o IP endpoint do Serviço Connect privado. Nesse caso, mapeie o nome de domínio exclusivo do seu workspace (como 33333333333333333.3.gcp.databricks.com) para o endereço IP do endpoint do Private serviço Connect, que em nosso exemplo anterior era 10.0.0.2 , mas seu número pode ser diferente.
    3. Crie um registro A para mapear dp-<workspace-url> para o IP endpoint do serviço Connect privado. Nesse caso, usar o URL workspace de exemplo mapearia dp-333333333333333.3.gcp.databricks.com para 10.0.0.2, mas esses valores podem ser diferentes para você.
  4. Se os usuários usarem um navegador da Web na VPC do usuário para acessar o workspace, para dar suporte à autenticação, você deverá criar um registro A para mapear <workspace-gcp-region>.psc-auth.gcp.databricks.com para 10.0.0.2. Neste caso, mapeie us-east4.psc-auth.gcp.databricks.com para 10.0.0.2. Para conectividade front-end, este passo normalmente é necessário; no entanto, se você planeja estabelecer conectividade front-end da rede de trânsito apenas para APIs REST (não acesso de usuário do navegador da web), você pode omitir este passo.

A configuração DNS front-end da sua zona com registros A que mapeiam para o seu URL workspace e o serviço de autenticação Databricks geralmente se parece com o seguinte:

Valide sua configuração de DNS

Em sua rede de trânsito VPC, use a ferramenta nslookup para confirmar que os seguintes URLs agora são resolvidos para o front-end Private serviço Connect endpoint IP.

  • <workspace-url>
  • dp-<workspace-url>
  • <workspace-gcp-region>.psc-auth.gcp.databricks.com

Nome DNS intermediário para o serviço privado Connect

O nome DNS intermediário para o espaço de trabalho que habilita o serviço privado back-end ou front-end é <workspace-gcp-region>.psc.gcp.databricks.com. Isso permite separar o tráfego para o espaço de trabalho que eles precisam acessar de outros serviços Databricks que não oferecem suporte ao serviço privado Connect, como o console account.

Etapa 10 (opcional): Configurar listas de acesso IP

Em default, as conexões de front-end com o espaço de trabalho do Serviço Privado Connect permitem acesso público. Você pode controlar o acesso público criando um objeto de configurações de acesso privado. Saiba mais.

Siga estas etapas para gerenciar o acesso público:

  1. Decida sobre o acesso público:

    • Negar acesso público : Não são permitidas conexões públicas ao workspace.
    • Permitir acesso público : você pode restringir ainda mais o acesso usando listas de acesso IP.
  2. Se você permitir o acesso público, configure as listas de acesso IP:

    • Configure listas de acesso IP para controlar quais endereços IP públicos podem acessar o site Databricks workspace.
    • As listas de acesso IP afetam somente solicitações de endereços IP públicos pela Internet. Eles não bloqueiam o tráfego privado do serviço privado Connect.
  3. Para bloquear todo o acesso à Internet:

nota

As listas de acesso IP não afetam as solicitações das redes VPC conectadas por meio do serviço privado Connect. Essas conexões são gerenciadas usando a configuração do nível de acesso do Private Service Connect. Consulte a Etapa 5: criar um objeto de configurações de acesso privado do Databricks.

Etapa 11 (opcional): Configurar VPC Service Controls

Melhore sua conectividade privada com Databricks implementando VPC Service Controls o serviço Privado Connect, que oferece uma camada adicional de segurança para manter o tráfego privado. Essa abordagem combinada mitiga de forma eficaz os riscos de exfiltração de dados, isolando seu recurso do Google Cloud e controlando o acesso às suas redes VPC.

Configurar o acesso privado de back-end do plano compute VPC para o armazenamento em nuvem

Configure o Acesso Privado ao Google ou o serviço Privado para acessar de forma privada o recurso de armazenamento em nuvem a partir do seu plano compute VPC.

Adicione seus projetos de avião compute a um serviço VPC Service Controls Perimeter

Para cada Databricks workspace, adicione os seguintes projetos do Google Cloud a um perímetro de serviço VPC Service Controls:

  • plano de computação VPC projeto de host
  • Projeto que contém o bucket de armazenamento workspace
  • projetos de serviços que contêm o compute recurso do workspace

Com essa configuração, você deve conceder acesso aos dois itens a seguir:

  • O recurso compute e o balde de armazenamento workspace do plano de controle Databricks
  • Databricks-gerenciar as caçambas de armazenamento do plano compute VPC

Conceda o acesso acima com as seguintes regras de entrada e saída no perímetro do serviço VPC Service Controls acima.

Para obter os números de projeto para essas regras de entrada e saída, consulte Endereços IP e domínios para Databricks serviço e ativo.

Regra de entrada

O senhor deve adicionar uma regra de entrada para conceder acesso ao seu VPC Service Controls serviço Perimeter a partir do plano de controle Databricks VPC. Veja a seguir um exemplo de regra de entrada:

From:
Identities: ANY_IDENTITY
Source > Projects =
<us-central1-control-plane-vpc-host-project-numbers> # Only required for workspace creation
<regional-control-plane-vpc-host-project-numbers>
<regional-control-plane-uc-project-number>
<regional-control-plane-audit-log-delivery-project-number>
To:
Projects =
<list of compute plane Project Ids>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: compute.googleapis.com
Service methods: All actions
Service name: container.googleapis.com
Service methods: All actions
Service name: logging.googleapis.com
Service methods: All actions
Service name: cloudresourcemanager.googleapis.com
Service methods: All actions
Service name: iam.googleapis.com
Service methods: All actions

Para obter os números de projeto para suas regras de ingresso, consulte URIs de anexo e números de projeto do Private Service Connect (PSC).

Regra de saída

O senhor deve adicionar uma regra de saída para conceder acesso a Databricks-gerenciar buckets de armazenamento do plano compute VPC. Veja a seguir um exemplo de regra de saída:

From:
Identities: ANY_IDENTITY
To:
Projects =
<regional-control-plane-asset-project-number>
<regional-control-plane-vpc-host-project-numbers>
Services =
Service name: storage.googleapis.com
Service methods: All actions
Service name: artifactregistry.googleapis.com
Service methods:
artifactregistry.googleapis.com/DockerRead'

Para obter os números de projeto para suas regras de saída, consulte URIs de anexo e números de projeto do Private Service Connect (PSC).

Acesse data lake baldes de armazenamento protegidos por VPC Service Controls

Adicione os projetos do Google Cloud que contêm os buckets de armazenamento do data lake a um perímetro de serviço do VPC Service Controls.

O senhor não precisará de nenhuma regra adicional de entrada ou saída se os buckets de armazenamento data lake e os projetos Databricks workspace estiverem no mesmo perímetro de serviço VPC Service Controls.

Se os buckets de armazenamento data lake estiverem em um VPC Service Controls serviço Perimeter separado, o senhor deverá configurar o seguinte:

  • Regras de entrada em data lake serviço Perimeter:

    • Permitir o acesso ao Cloud Storage a partir do plano Databricks compute VPC
    • Permita o acesso ao Cloud Storage a partir do VPC do plano de controle do Databricks utilizando os IDs do projeto documentados na página de regiões. Este acesso é necessário, pois Databricks introduz novos recursos de governança de dados, como Unity Catalog.
  • Regras de saída em Databricks compute plane serviço Perimeter:

    • Permitir a saída para o Cloud Storage em projetos de data lake

O que vem a seguir

  • Conectividade privada aprimorada no back-end : Conclua sua configuração de conectividade privada configurando o serviço Privado Connect do seu plano compute para o plano de controle para obter isolamento de rede de ponta a ponta. Consulte Ativar serviço privado Connect para o seu workspace.
  • VPC Gerenciamento do cliente : implante o workspace em sua própria VPC para obter maior controle sobre as configurações de rede e políticas de segurança. Consulte Configurar um cliente-gerenciar VPC.
  • Controles de segurança da lista de acesso IP : adicione uma camada adicional de segurança controlando quais endereços IP públicos podem acessar o seu workspace por meio de regras configuráveis de permissão e negação. Consulte Configurar listas de acesso IP para o espaço de trabalho.

Configuração de DNS personalizada

Ao usar um endpoint front-end privado com seu próprio DNS personalizado, você deve verificar se tanto a URL workspace quanto as URLs de autenticação SSO (logon único) são resolvidas corretamente para o endereço IP do endpoint privado.

O método mais confiável é configurar seu servidor DNS para encaminhar consultas de todos os domínios do Databricks para o DNS interno do Azure.

  1. Configure o encaminhamento condicional para os seguintes domínios para o seu servidor DNS do Azure:

    • *.azuredatabricks.net
    • *.privatelink.azuredatabricks.net
    • *.databricksapps.com
  2. Verifique se sua VNet está vinculada à Zona DNS Privada do Azure.

Isso permite que Azure resolva automaticamente todos os nomes de host necessários, incluindo URLs SSO e workspace , para o endereço IP do seu endpoint privado.