Pular para o conteúdo principal

Configure o Banco de Dados do Azure para MySQL para ingestão.

info

Visualização

O conector MySQL está em versão prévia pública. Entre em contato com a equipe da sua account Databricks para solicitar acesso.

Aprenda como configurar o Banco de Dados do Azure para MySQL para ingestão no Databricks. Você deve ativar o registro binário e configurar a retenção do log binário para suportar a captura de dados de alterações (CDC).

Requisitos

  • Banco de Dados do Azure para MySQL versão 5.7.44 e posterior, ou 8.0 e posterior (Servidor Flexível).
  • Permissão para modificar os parâmetros do servidor.

Configurar parâmetros do servidor

O registro binário é controlado por meio de parâmetros do servidor no Banco de Dados do Azure para MySQL. Você deve configurar esses parâmetros através do portal do Azure.

Parâmetros de servidor necessários

Configure os seguintes parâmetros do servidor:

Parâmetro

Valor

Descrição

log_bin

ON

Habilita o registro binário. log_bin está habilitado por default no Azure MySQL Flexible Server e não é configurável. Se esta opção estiver disponível, defina-a como ON.

binlog_format

ROW

Define o formato do log binário para replicação baseada em linhas. Necessário para captura de dados de alterações (CDC).

binlog_row_image

FULL

Registra todas as colunas no log binário, não apenas as colunas alteradas.

binlog_expire_logs_seconds

Mínimo: 86400 (um dia). Recomendado: 604800 (sete dias)

Especifica por quanto tempo logs binários são mantidos antes da eliminação automática.

Portal do Azure

Para configurar os parâmetros do servidor usando o portal do Azure:

  1. Inicie sessão no portal do Azure e navegue até o seu servidor de Banco de Dados do Azure para MySQL.
  2. No menu à esquerda, em Configurações , selecione Parâmetros do servidor .
  3. Procure por binlog_format e defina o valor como ROW.
  4. Procure por binlog_row_image e defina o valor como FULL.
  5. Procure por binlog_expire_logs_seconds e defina o valor mínimo para 86400 (um dia). A Databricks recomenda configurá-lo para 604800 (sete dias).
  6. Clique em Salvar na parte superior da página.
  7. Quando solicitado, reinicie o servidor para que as alterações entrem em vigor.

Considerações sobre a retenção de binlogs

O período mínimo de retenção de binlogs é de um dia (24 horas ou 86400 segundos). A Databricks recomenda um período de retenção de binlogs de sete dias (168 horas ou 604800 segundos). Se você definir um valor inferior, os binlogs poderão ser excluídos antes que o gateway de ingestão os processe, exigindo uma refresh completa de todas as tabelas.

Uma refresh completa também é necessária se o gateway não puder processar binlogs continuamente. Se o gateway for interrompido por mais de binlog_expire_logs_seconds, os binlogs poderão ser excluídos antes que a ingestão seja retomada.

Verifique a configuração do binlog

Após configurar os parâmetros do servidor e reiniciá-lo, verifique se o registro binário está configurado corretamente:

SQL
-- Check if binary logging is enabled
SHOW VARIABLES LIKE 'log_bin';

-- Should return:
-- +---------------+-------+
-- | Variable_name | Value |
-- +---------------+-------+
-- | log_bin | ON |
-- +---------------+-------+

-- Check binlog format
SHOW VARIABLES LIKE 'binlog_format';

-- Should return:
-- +---------------+-------+
-- | Variable_name | Value |
-- +---------------+-------+
-- | binlog_format | ROW |
-- +---------------+-------+

-- Check binlog row image
SHOW VARIABLES LIKE 'binlog_row_image';

-- Should return:
-- +------------------+-------+
-- | Variable_name | Value |
-- +------------------+-------+
-- | binlog_row_image | FULL |
-- +------------------+-------+

-- Check retention in seconds
SHOW VARIABLES LIKE 'binlog_expire_logs_seconds';

Leia o suporte à réplica

O conector MySQL oferece suporte à ingestão de dados a partir de réplicas de leitura do Banco de Dados do Azure para MySQL. Utilizar uma réplica de leitura pode reduzir a carga no seu banco de dados principal.

Para usar uma réplica de leitura:

  1. Crie uma réplica de leitura do seu servidor primário no portal do Azure.
  2. Verifique se a réplica de leitura tem o registro binário ativado (herdado do servidor primário).
  3. Utilize as strings de conexão da réplica de leitura ao criar a conexão com o Databricks .
nota

Pode haver um atraso na replicação entre o servidor primário e a réplica, o que pode afetar a atualização dos dados. Monitore o atraso de replicação usando as métricas do Azure Monitor.

Configuração de rede

Certifique-se de que seu servidor Azure Database for MySQL esteja acessível a partir do Databricks:

  • Configure as regras do firewall para permitir o tráfego de entrada proveniente dos intervalos de IP do Databricks.
  • Se estiver usando um endpoint privado, assegure-se de que o emparelhamento ou a conectividade da rede virtual estejam adequados.
  • Considere usar o Azure Private Link para conectividade segura.

Para adicionar uma regra de firewall:

  1. No portal do Azure, navegue até o seu servidor MySQL.
  2. Em Configurações , selecione Rede .
  3. Adicione uma nova regra de firewall com os intervalos de IP do Databricks.
  4. Clique em Salvar .

Próximos passos

Agora, um administrador pode: