Recomendações de networking para a Lakehouse Federation

Este artigo fornece orientação para a configuração de um caminho de rede viável entre o seu Databricks clustering ou SQL warehouse e o sistema de banco de dados externo ao qual o senhor está se conectando usando o Lakehouse Federation.

Considere o seguinte ao configurar a conectividade de rede para a Lakehouse Federation:

Todo o tráfego de rede para consultas federadas é diretamente entre os clusters do Databricks (ou SQL warehouses) e o sistema de banco de dados externo. Nem o Unity Catalog nem o plano de controle do Databricks estão no caminho da rede.
Conexões que usam OAuth têm um requisito adicional. Quando uma conexão se autentica com OAuth, a troca de tokens OAuth acontece a partir do plano de controle do Databricks, não do plano de compute. O plano de controle deve ser capaz de alcançar o endpoint OAuth do sistema externo. Adicionar apenas o plano de compute à lista de permissões não é suficiente para essas conexões. Para orientação específica do conector, consulte a seção de rede ou limitações da página de conexão relevante, como Execução de consultas federadas no Snowflake (OAuth) ou Execução de consultas federadas no Microsoft SQL Server. Conexões HTTP são uma exceção; elas roteiam o OAuth através do plano de compute serverless em vez do plano de controle.
Databricks compute (ou seja, clustering e SQL warehouse) sempre implantado na nuvem, mas o sistema de banco de dados externo pode estar no local ou hospedado em qualquer provedor de nuvem, desde que haja um caminho de rede viável entre o Databricks compute e o banco de dados externo.
Se houver restrições de rede de entrada ou saída no site Databricks compute ou no sistema de banco de dados externo, consulte as seções a seguir para obter orientações gerais que o ajudarão a criar um caminho de rede viável.

Para obter mais informações sobre redes no Databricks workspace, consulte Networking.

Sistema de banco de dados e Databricks compute , ambos acessíveis pela Internet

A conexão deve funcionar sem nenhuma configuração.

O sistema de banco de dados tem restrições de acesso à rede

Se o sistema de banco de dados externo tiver restrições de acesso à rede de entrada ou saída e o site Databricks cluster ou SQL warehouse for acessível pela Internet, configure uma das seguintes soluções de rede para se conectar a partir do recurso clássico compute:

IP de saída estável em Databricks compute.

No plano clássico compute, configure um endereço IP estável com um balanceador de carga, gateway NAT, gateway de Internet ou equivalente e conecte-o à sub-rede em que o Databricks compute está implantado. Isso permite que o recurso compute compartilhe um endereço IP público estável que pode ser incluído na lista de permissões do lado do banco de dados externo.

No plano de compute serverless, o Databricks publica seu IP de saída, que pode ser adicionado à lista de permissões pelo sistema de banco de dados externo. É necessário manter esses endereços IP atualizados por meio de automação. Consulte Configuração de firewall de computação serverless.

Do plano de computação clássico, o sistema de banco de dados externo deve adicionar o IP estável de computação do Databricks à lista de permissões para tráfego de entrada e saída.

Link privado (somente quando o banco de dados externo estiver na mesma cloud que Databricks compute).

A partir do plano compute clássico, configure uma conexão de Link Privado entre a rede onde o banco de dados está implantado e a rede onde Databricks compute está implantado.

Databricks compute tem restrições de acesso à rede

Se o sistema de banco de dados externo for acessível pela Internet e o site Databricks compute tiver restrições de acesso à rede de entrada ou saída (o que só é possível se o senhor estiver em uma rede gerenciada pelo cliente), execute uma das seguintes configurações:

Permitir listar o nome do host do banco de dados externo nas regras de firewall da sub-rede em que o Databricks compute está implantado.

Se você optar por colocar na lista de permissões o endereço IP do banco de dados externo em vez do nome do host, certifique-se de que o banco de dados externo tenha um endereço IP estável.
Link privado (somente quando o banco de dados externo estiver na mesma cloud que compute Databricks )

Configure uma conexão de Link Privado entre a rede onde o banco de dados está implantado e a rede onde Databricks compute está implantado.

Databricks compute tem um servidor DNS personalizado

Se o sistema de banco de dados externo for acessível pela Internet e o Databricks compute tiver um servidor DNS personalizado (o que só é possível se o senhor estiver em uma rede gerenciada pelo cliente), adicione o nome do host do sistema de banco de dados ao seu servidor DNS personalizado para que ele possa ser resolvido.

Considerações sobre a rede do AWS Glue

Se o senhor usar serverless compute com a federação Glue, não será necessário fazer nenhuma configuração. Se o senhor usar o compute clássico com a federação Glue, o Databricks recomenda o uso de rede privada com um catálogo federado para aumentar a segurança e o desempenho.

Federando para o catálogo do AWS Glue usando um link privado

Ao implantar Databricks com um catálogo federado, a comunicação em rede entre o plano de dados Databricks e o catálogo de dados AWS Glue em sua VPC AWS é essencial. Normalmente, isso envolve o estabelecimento de conectividade privada entre a VPC do workspace do Databricks e a VPC AWS usando AWS Private Link ou um endpoint de interface VPC .

Uma interface VPC endpoint no site AWS VPC atua como um ponto de entrada para o tráfego para o catálogo de dados AWS Glue . Ele está associado a um grupo de segurança que controla o acesso ao catálogo. O Databricks workspace é então configurado para usar esse endpoint. Grupos de segurança e ACLs de rede devem permitir tráfego nas portas necessárias (normalmente 443). A resolução de DNS para o AWS Glue catálogo de dados usando o endpoint pode precisar de zonas de DNS privadas ou de um encaminhador de DNS. Garantir a alta disponibilidade e monitorar o tráfego de rede é fundamental para uma configuração resiliente.

Federando para o AWS Glue Catalog usando NAT

O tráfego para o AWS Glue catálogo de dados pode atravessar a Internet pública, mas a conectividade privada é recomendada para fins de segurança. Se o senhor usar serverless compute, a rede para o catálogo Glue será automaticamente roteada para o site público Glue endpoint glue.us-west-2.amazonaws.com. Se a credencial do serviço tiver as permissões corretas do IAM, isso funcionará sem necessidade de configuração.

Como o NAT introduz um custo extra e expõe o tráfego à Internet pública, esse é um fallback e não uma prática recomendada. Se o Databricks compute e o AWS Glue catálogo de dados serviço endpoint estiverem ambos no AWS na mesma região, o tráfego permanecerá no backbone AWS em vez de sair para a Internet aberta. No entanto, ele ainda é resolvido para um IP público em vez de um IP privado.

Considerações sobre a rede Snowflake

Se o compute do Databricks não conseguir alcançar o respondedor OCSP do Snowflake, as tentativas de conexão podem falhar durante a validação do certificado. Prefira permitir o tráfego de saída para o respondedor OCSP do Snowflake. Se a sua configuração de egresso restrito ou conectividade privada não puder permitir esse tráfego, defina a opção de conexão disableOCSPChecks Snowflake como true. Consulte Opções de conexão avançadas.
O Snowflake oferece suporte ao egresso do Private Link como um recurso em visualização. Na AWS, o Snowflake também publica endereços IP de egresso que você pode permitir.

Sistema de banco de dados e Databricks compute , ambos acessíveis pela Internet​

O sistema de banco de dados tem restrições de acesso à rede​

Databricks compute tem restrições de acesso à rede​

Databricks compute tem um servidor DNS personalizado​

Considerações sobre a rede do AWS Glue​

Federando para o catálogo do AWS Glue usando um link privado​

Federando para o AWS Glue Catalog usando NAT​

Considerações sobre a rede Snowflake​