Databricks に取り込むための Microsoft SQL Server の構成

備考

プレビュー

Microsoft SQL Server コネクタはパブリックプレビュー段階です。

この記事では、 Lakeflowコネクトを使用して SQL Server から Databricksに取り込むために必要なソースセットアップの概要について説明します。

変更の追跡と変更データキャプチャの比較

Change Tracking とチェンジデータキャプチャ (CDC) を使用すると、 Databricks ソーステーブルの変更を追跡できます。 Databricks では、ソースデータベースの負荷を最小限に抑えるために、主キーを持つすべてのテーブルに対して変更追跡を使用することをお勧めします。変更の追跡と CDC の両方が有効になっている場合、SQL Server コネクタは変更の追跡を使用します。

変更の追跡: テーブル内の行が変更されたという事実をキャプチャしますが、実際の操作はキャプチャしません。変更の追跡では、テーブルに主キーが必要ですが、これはソースデータベースに大きな影響を与えない軽量のプロセスです。
CDC: テーブルに対するすべての操作をキャプチャし、時間の経過と共に行われた変更の履歴ビューが含まれます。CDC では、テーブルに主キーは必要ありませんが、ソースデータベースのパフォーマンスに大きな影響を与える可能性があります。

これらのオプションの詳細については、「データ変更の追跡 (SQL Server)」を参照してください。

ソース設定タスクの概要

Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。

SQL Server のバージョン要件を満たしていることを確認します。
- 変更の追跡を使用するには、SQL Server 2012 以降が必要です。
- CDCを使用するには、SQL Server 2012 サービスパック 1 (SP1) 累積更新プログラムパッケージ 3 (CU3) 以降が必要です。SQL Server 2016 より前のバージョンでは、Enterprise Edition も必要です。
必要に応じて、ファイアウォール設定を構成します。
- AWS SQL データベース
Databricks への取り込み専用で、特権要件を満たすデータベースユーザーを SQL Server に作成します。
変更の追跡または CDC を有効にします。
- 変更の追跡
- CDC

変更の追跡と変更データキャプチャの比較​

ソース設定タスクの概要​

変更の追跡と変更データキャプチャの比較

ソース設定タスクの概要