Pular para o conteúdo principal

Configure o Amazon RDS e o Amazon Aurora MySQL para ingestão.

info

Visualização

O conector MySQL está em versão prévia pública. Entre em contato com a equipe da sua account Databricks para solicitar acesso.

Aprenda como configurar Amazon RDS para MySQL e Amazon Aurora MySQL para ingestão usando LakeFlow Connect. Você deve ativar o registro binário e configurar a retenção do log binário para suportar a captura de dados de alterações (CDC).

Requisitos

  • RDS para MySQL : Versão 5.7.44 e posteriores (tanto para implantações independentes quanto de alta disponibilidade)
  • Aurora MySQL : Versão 5.7.mysql_aurora.2.12.2 e posteriores (para configurações de alta disponibilidade, o suporte é apenas a partir da instância primária)
  • Aurora MySQL sem servidor : Compatível
  • Um grupo de parâmetros de banco de dados (para RDS) ou um grupo de parâmetros de cluster de banco de dados (para Aurora) que você pode modificar.

Modifique o grupo de parâmetros

O registro binário é controlado por meio de grupos de parâmetros de banco de dados no RDS e grupos de parâmetros de cluster de banco de dados no Aurora. Se você estiver usando o grupo de parâmetros default , será necessário criar um grupo de parâmetros personalizado, pois os grupos de parâmetros default não podem ser modificados.

Crie um grupo de parâmetros personalizado (se necessário).

Se você estiver usando um grupo de parâmetros default , crie um personalizado:

  1. Faça login no Console de Gerenciamento da AWS e abra o console do RDS.
  2. No painel de navegação, selecione Grupos de parâmetros .
  3. Clique em Criar grupo de parâmetros .
  4. Para a família de grupos de parâmetros , selecione a família de versões do MySQL (por exemplo, mysql8.0).
  5. Em Tipo , selecione Grupo de parâmetros de banco de dados para RDS ou Grupo de parâmetros de cluster de banco de dados para Aurora. Para clusters Aurora, você deve criar um Grupo de Parâmetros de Cluster de Banco de Dados. Associe-o ao nível do cluster, não ao nível da instância.
  6. Insira um nome e uma descrição para o grupo de parâmetros.
  7. Clique em Criar .
  8. Associe o grupo de parâmetros personalizados à sua instância RDS ou cluster Aurora. Isso requer a reinicialização do banco de dados.

Configurar parâmetros de binlog

Modifique os seguintes parâmetros no seu grupo de parâmetros personalizados:

Parâmetro

Valor

Descrição

log_bin

Este parâmetro é somente leitura no RDS. O registro binário é ativado automaticamente quando você habilita os backups automatizados.

Habilita o registro binário.

binlog_format

ROW

Define o formato do log binário para replicação baseada em linhas. Necessário para captura de dados de alterações (CDC).

binlog_row_image

FULL

Registra todas as colunas no log binário, não apenas as colunas alteradas.

Para modificar esses parâmetros:

  1. No console RDS, selecione seu grupo de parâmetros personalizado.
  2. Clique em Editar parâmetros .
  3. Procure cada parâmetro e defina seu valor conforme mostrado na tabela.
  4. Clique em Salvar alterações .
  5. Reinicie sua instância RDS ou cluster Aurora para que as alterações entrem em vigor.

Configurar retenção de binlogs

Por default, o RDS e o Aurora excluem logs binários o mais rápido possível para economizar espaço de armazenamento. Você deve configurar a retenção de binlogs para garantir que os logs estejam disponíveis por tempo suficiente para que o gateway de ingestão os processe.

Defina o período de retenção

Para definir o período de retenção do binlog, conecte-se à sua instância RDS ou cluster Aurora usando um cliente MySQL com as credenciais do usuário mestre e execute o seguinte comando:

SQL
-- Set retention to 7 days (168 hours)
-- For RDS MySQL:
CALL mysql.rds_set_configuration('binlog retention hours', 168);

-- For Aurora MySQL:
CALL mysql.rds_set_configuration('binlog retention hours', 168);

A Databricks recomenda um período de retenção de binlogs de 7 dias (168 horas). Definir um valor inferior pode fazer com que os binlogs sejam limpos antes que o gateway de ingestão os reproduza, o que exigiria uma refresh completa de todas as tabelas.

Verifique as configurações de retenção.

Para verificar as configurações de retenção:

SQL
-- For RDS and Aurora:
CALL mysql.rds_show_configuration;

Exemplo de saída:

+------------------------+-------+--------------------------------------+
| name | value | description |
+------------------------+-------+--------------------------------------+
| binlog retention hours | 168 | binlog retention hours specifies... |
+------------------------+-------+--------------------------------------+

Ativar backups automáticos

O registro binário no RDS e no Aurora é ativado automaticamente quando os backups automatizados estão habilitados. Verifique se os backups automáticos estão ativados para sua instância:

  1. No console do RDS, selecione sua instância ou cluster de banco de dados.
  2. Veja a tab Configuração .
  3. Em Backup , verifique se a opção Backups automatizados está definida como Ativada .
  4. Se os backups estiverem desativados, clique em Modificar e ative os backups automáticos com um período de retenção de pelo menos 1 dia.

Verifique a configuração do binlog

Após modificar o grupo de parâmetros e reiniciar o banco de dados, verifique se o registro binário está configurado corretamente:

SQL
-- Check if binary logging is enabled
SHOW VARIABLES LIKE 'log_bin';

-- Should return:
-- +---------------+-------+
-- | Variable_name | Value |
-- +---------------+-------+
-- | log_bin | ON |
-- +---------------+-------+

-- Check binlog format
SHOW VARIABLES LIKE 'binlog_format';

-- Should return:
-- +---------------+-------+
-- | Variable_name | Value |
-- +---------------+-------+
-- | binlog_format | ROW |
-- +---------------+-------+

-- Check binlog row image
SHOW VARIABLES LIKE 'binlog_row_image';

-- Should return:
-- +------------------+-------+
-- | Variable_name | Value |
-- +------------------+-------+
-- | binlog_row_image | FULL |
-- +------------------+-------+

Leia as limitações de réplicas

  • O conector MySQL não suporta a ingestão de dados de réplicas de leitura do Aurora MySQL. Para implantações do Aurora, você precisa se conectar à instância primária (endpoint de gravação).
  • Réplicas de leitura são suportadas para RDS se tiverem backups habilitados (ou seja, se o registro binário estiver ativado nelas).

Configuração de rede

Certifique-se de que sua instância RDS ou cluster Aurora esteja acessível a partir do Databricks:

  • Configure os grupos de segurança para permitir o tráfego de entrada na porta 3306 (ou na sua porta MySQL personalizada) a partir dos intervalos de IP do Databricks.
  • Se estiver usando uma sub-rede privada, certifique-se de que o emparelhamento VPC ou a conectividade de rede estejam adequados.
  • Considere usar o AWS PrivateLink para conectividade segura.

Próximos passos

Agora, um administrador pode: