Recomendações de networking para a Lakehouse Federation

Este artigo fornece orientação para a configuração de um caminho de rede viável entre o seu Databricks clustering ou SQL warehouse e o sistema de banco de dados externo ao qual o senhor está se conectando usando o Lakehouse Federation.

O senhor deve ter em mente as seguintes informações importantes:

Todo o tráfego de rede é feito diretamente entre o Databricks clustering (ou SQL warehouse) e o sistema de banco de dados externo. Nem o Unity Catalog nem o plano de controle do Databricks estão no caminho da rede.
Databricks compute (ou seja, clustering e SQL warehouse) sempre implantado na nuvem, mas o sistema de banco de dados externo pode estar no local ou hospedado em qualquer provedor de nuvem, desde que haja um caminho de rede viável entre o Databricks compute e o banco de dados externo.
Se houver restrições de rede de entrada ou saída no site Databricks compute ou no sistema de banco de dados externo, consulte as seções a seguir para obter orientações gerais que o ajudarão a criar um caminho de rede viável.

Para obter mais informações sobre redes no Databricks workspace, consulte Networking.

Sistema de banco de dados e Databricks compute , ambos acessíveis pela Internet

A conexão deve funcionar sem nenhuma configuração.

O sistema de banco de dados tem restrições de acesso à rede

Se o sistema de banco de dados externo tiver restrições de acesso à rede de entrada ou saída e o site Databricks cluster ou SQL warehouse for acessível pela Internet, configure uma das seguintes soluções de rede para se conectar a partir do recurso clássico compute:

IP de saída estável em Databricks compute.

No plano clássico compute, configure um endereço IP estável com um balanceador de carga, gateway NAT, gateway de Internet ou equivalente e conecte-o à sub-rede em que o Databricks compute está implantado. Isso permite que o recurso compute compartilhe um endereço IP público estável que pode ser incluído na lista de permissões do lado do banco de dados externo.

No plano serverless compute , há suporte para IP de saída estável. Consulte a Etapa 1: Crie uma configuração de conectividade de rede e copie os IPs estáveis.

O sistema de banco de dados externo deve permitir a listagem do IP estável Databricks compute para o tráfego de entrada e saída.

PrivateLink (somente quando o banco de dados externo estiver na mesma nuvem que o Databricks compute)

No plano clássico compute, configure uma conexão PrivateLink entre a rede em que o banco de dados está implantado e a rede em que Databricks compute está implantado.

Databricks compute tem restrições de acesso à rede

Se o sistema de banco de dados externo for acessível pela Internet e o site Databricks compute tiver restrições de acesso à rede de entrada ou saída (o que só é possível se o senhor estiver em uma rede gerenciada pelo cliente), execute uma das seguintes configurações:

Permitir listar o nome do host do banco de dados externo nas regras de firewall da sub-rede em que o Databricks compute está implantado.

Se você optar por colocar na lista de permissões o endereço IP do banco de dados externo em vez do nome do host, certifique-se de que o banco de dados externo tenha um endereço IP estável.
PrivateLink (somente quando o banco de dados externo estiver na mesma nuvem que o Databricks compute)

Configure uma conexão PrivateLink entre a rede em que o banco de dados está implantado e a rede em que o site Databricks compute está implantado.

Databricks compute tem um servidor DNS personalizado

Se o sistema de banco de dados externo for acessível pela Internet e o Databricks compute tiver um servidor DNS personalizado (o que só é possível se o senhor estiver em uma rede gerenciada pelo cliente), adicione o nome do host do sistema de banco de dados ao seu servidor DNS personalizado para que ele possa ser resolvido.

Considerações sobre a rede do AWS Glue

Se o senhor usar serverless compute com a federação Glue, não será necessário fazer nenhuma configuração. Se o senhor usar o compute clássico com a federação Glue, o Databricks recomenda o uso de rede privada com um catálogo federado para aumentar a segurança e o desempenho.

Federando o catálogo do AWS Glue usando o PrivateLink

Quando o senhor implanta o Databricks com um catálogo federado, é essencial estabelecer uma rede entre o plano de dados Databricks e o catálogo de dados AWS Glue no seu AWS VPC . Isso normalmente envolve o estabelecimento de conectividade privada entre o Databricks workspace's VPC e o AWS VPC usando AWS PrivateLink ou uma interface VPC endpoint.

Uma interface VPC endpoint no site AWS VPC atua como um ponto de entrada para o tráfego para o catálogo de dados AWS Glue . Ele está associado a um grupo de segurança que controla o acesso ao catálogo. O Databricks workspace é então configurado para usar esse endpoint. Grupos de segurança e ACLs de rede devem permitir tráfego nas portas necessárias (normalmente 443). A resolução de DNS para o AWS Glue catálogo de dados usando o endpoint pode precisar de zonas de DNS privadas ou de um encaminhador de DNS. Garantir a alta disponibilidade e monitorar o tráfego de rede é fundamental para uma configuração resiliente.

Federando para o AWS Glue Catalog usando NAT

O tráfego para o AWS Glue catálogo de dados pode atravessar a Internet pública, mas a conectividade privada é recomendada para fins de segurança. Se o senhor usar serverless compute, a rede para o catálogo Glue será automaticamente roteada para o site público Glue endpoint glue.us-west-2.amazonaws.com. Se a credencial do serviço tiver as permissões corretas do IAM, isso funcionará sem necessidade de configuração.

Como o NAT introduz um custo extra e expõe o tráfego à Internet pública, esse é um fallback e não uma prática recomendada. Se o Databricks compute e o AWS Glue catálogo de dados serviço endpoint estiverem ambos no AWS na mesma região, o tráfego permanecerá no backbone AWS em vez de sair para a Internet aberta. No entanto, ele ainda é resolvido para um IP público em vez de um IP privado.

Considerações sobre a rede Snowflake

O Snowflake oferece suporte à saída do PrivateLink como um recurso de visualização. O Snowflake não oferece suporte ao fornecimento de IPs estáticos, o que impede a prática de configurar listas de permissões.

Sistema de banco de dados e Databricks compute , ambos acessíveis pela Internet​

O sistema de banco de dados tem restrições de acesso à rede​

Databricks compute tem restrições de acesso à rede​

Databricks compute tem um servidor DNS personalizado​

Considerações sobre a rede do AWS Glue​

Federando o catálogo do AWS Glue usando o PrivateLink​

Federando para o AWS Glue Catalog usando NAT​

Considerações sobre a rede Snowflake​