Databricks への取り込み用に MySQL を構成する
プレビュー
MySQL コネクタはパブリック プレビュー段階です。アクセスをリクエストするには、Databricks アカウント チームにお問い合わせください。
LakeFlow Connectを使用してMySQL Databricksに取り込むように構成する方法を学びます。 MySQL コネクタは、バイナリ ログ (binlog) レプリケーションを使用して MySQL データベースからの変更をキャプチャし、それらを Databricks に増分的に同期します。
要件
MySQL を取り込み用に構成する前に、環境が次の要件を満たしていることを確認してください。
-
サポートされているデータベースバージョン :
- Amazon RDS: 5.7.44 以降 (スタンドアロンおよび HA デプロイメントの両方)
- Amazon Aurora: 5.7.mysql_aurora.2.12.2 以降 (HA 設定の場合、サポートはプライマリ インスタンスからのみ)
- Amazon Aurora サーバレス: サポートあり
- Azure Database for MySQL フレキシブル サーバー: 5.7.44 以降 (スタンドアロンと HA 展開の両方)
- EC2上のMySQL: 5.7.44以降
- GCPクラウドSQL : 5.7.44 以降
-
バイナリ ログ構成 : 次のサーバー構成が必要です。
- バイナリ ログを有効にします。
- binlog 形式を
ROWに設定します。 - binlog行イメージを
FULLに設定します。
-
レプリケーション権限を持つ MySQL ユーザーを作成するためのアクセス。
-
Databricks から MySQL インスタンスへのネットワーク接続。
ソース設定タスクの概要
取り込み用に MySQL を構成するには、次のタスクを完了します。
-
MySQLサーバーを構成して バイナリ ログを有効にし、正しい形式を設定します。
構成ステップは、デプロイメントのタイプによって異なります。
-
レプリケーションに必要な権限を持つ MySQL ユーザーを作成します 。「MySQL ユーザー権限の付与」を参照してください。
-
Databricks が MySQL インスタンスに接続できるように ネットワークを構成します 。これには、ファイアウォール ルール、セキュリティ グループ、ネットワーク ピアリングの構成が含まれる場合があります。
許可リストに追加する IP アドレスの詳細については、 AWS SQL Database のファイアウォール設定を構成する」を参照してください。
リードレプリカのサポート
MySQL コネクタは、次のデプロイメント タイプの読み取りレプリカからの取り込みをサポートしています。
- MySQL 用 Amazon RDS
- MySQL 用 Azure データベース
- EC2上のMySQL
コネクタは、Amazon Aurora MySQL リードレプリカからの取り込みをサポートしてい ません 。Aurora デプロイメントのプライマリ インスタンスに接続する必要があります。
読み取りレプリカを使用すると、プライマリ データベースの負荷を軽減できます。ただし、プライマリ データベースとレプリカの間にレプリケーションの遅延が発生する可能性があり、データの鮮度に影響する可能性があります。