Recomendações de rede para Lakehouse Federation

Este artigo fornece orientação para configurar um caminho de rede viável entre seus clusters Databricks ou SQL warehouse e o sistema de banco de dados externo ao qual você está se conectando usando lakehouse Federation.

Tenha em mente as seguintes informações importantes:

  • Todo o tráfego de rede ocorre diretamente entre clusters Databricks (ou SQL warehouse) e o sistema de banco de dados externo. Nem Unity Catalog nem o plano de controle do Databricks estão no caminho da rede.

  • Databricks compute (ou seja, clusters e SQL warehouse) sempre aprimorados na cloud, mas o sistema de banco de dados externo pode ser on-premises ou hospedado em qualquer provedor cloud , desde que haja um caminho de rede viável entre sua compute Databricks e o banco de dados externo.

  • Se você tiver restrições de rede de entrada ou saída na compute do Databricks ou no sistema de banco de dados externo, consulte as seções a seguir para obter orientações gerais para ajudá-lo a criar um caminho de rede viável.

Para obter mais informações sobre o trabalho em rede no espaço de trabalho do Databricks, consulte Trabalho em rede.

Sistema de banco de dados e Databricks computam ambos acessíveis pela internet

A conexão deve funcionar sem nenhuma configuração.

O sistema de banco de dados tem restrições de acesso à rede

Se o sistema de banco de dados externo tiver restrições de acesso à rede de entrada ou saída e o site Databricks cluster ou SQL warehouse for acessível pela Internet, configure uma das seguintes soluções de rede para se conectar a partir do recurso clássico compute:

  • IP de saída estável na compute Databricks.

    No plano clássico compute, configure um endereço IP estável com um balanceador de carga, gateway NAT, gateway de Internet ou equivalente e conecte-o à sub-rede em que o Databricks compute está implantado. Isso permite que o recurso compute compartilhe um endereço IP público estável que pode ser incluído na lista de permissões do lado do banco de dados externo.

No plano serverless compute , há suporte para IP de saída estável. Veja o passo 1: Crie uma configuração de conectividade de rede e copie os IPs estáveis.

O sistema de banco de dados externo deve permitir o IP estável compute do Databricks para o tráfego de entrada e saída.

  • PrivateLink (somente quando o banco de dados externo estiver nas mesmas nuvens que o Databricks compute)

    No plano clássico compute, configure uma conexão PrivateLink entre a rede em que o banco de dados está implantado e a rede em que Databricks compute está implantado.

A computação Databricks tem restrições de acesso à rede

Se o sistema de banco de dados externo estiver acessível pela Internet e a compute do Databricks tiver restrições de acesso à rede de entrada ou saída (o que só é possível se você estiver em uma rede de geração de clientes), execute uma das seguintes configurações:

  • Lista de permissões o hostname do banco de dados externo nas regras de firewall da sub-rede onde compute do Databricks é aprimorada.

    Se você optar por permitir o endereço IP do banco de dados externo em vez do hostname, certifique-se de que o banco de dados externo tenha um endereço IP estável.

  • PrivateLink (somente quando o banco de dados externo estiver nas mesmas nuvens que o Databricks compute)

    Configure uma conexão PrivateLink entre a rede em que o banco de dados está implantado e a rede em que o Databricks compute está implantado.

A computação do Databricks tem um servidor DNS personalizado

Se o sistema de banco de dados externo estiver acessível pela Internet e a compute do Databricks tiver um servidor DNS personalizado (o que só é possível se você estiver em uma rede de geração de clientes), adicione o hostname do sistema de banco de dados ao seu servidor DNS personalizado para que possa ser resolvido.