Databricks に取り込むための Microsoft SQL Server の構成
LakeFlow Connectを使用して、 SQL ServerからDatabricksへのソース セットアップ タスクの取り込みをプレビューします。
変更の追跡と変更データキャプチャの比較
Change Tracking と チェンジデータキャプチャ (CDC) を使用すると、 Databricks ソース テーブルの変更を追跡できます。 Databricks では、ソース データベースの負荷を最小限に抑えるために、主キーを持つすべてのテーブルに対して変更追跡を使用することをお勧めします。変更の追跡と CDC の両方が有効になっている場合、SQL Server コネクタは変更の追跡を使用します。
手法 | 説明 |
|---|---|
変更の追跡 | テーブル内の行が変更されたという事実はキャプチャしますが、実際の操作はキャプチャしません。変更の追跡ではテーブルに主キーが必要ですが、これはソース データベースに大きな影響を与えない軽量のプロセスです。 |
変更データキャプチャ | テーブル上のすべての操作をキャプチャし、時間の経過に伴う変更の履歴ビューを保持します。CDC ではテーブルに主キーは必要ありませんが、ソース データベースのパフォーマンスにさらに大きな影響を与える可能性があります。 |
これらのオプションの詳細については、「 データ変更の追跡 (SQL Server)」を参照してください。
ソース設定タスクの概要
Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。
-
SQL Server のバージョン要件を満たしていることを確認します。
- 変更の追跡を使用するには、SQL Server 2012 以降が必要です。
- CDCを使用するには、SQL Server 2012 サービス パック 1 (SP1) 累積更新プログラム パッケージ 3 (CU3) 以降が必要です。SQL Server 2016 より前のバージョンでは、Enterprise Edition も必要です。
-
必要に応じて、ファイアウォール設定を構成します。
-
Databricks への取り込み専用で、 特権要件を満たすデータベース ユーザーを SQL Server に作成します。
-
権限管理、変更追跡の有効化、CDC の有効化など、ソース データベースを設定します。「ユーティリティ オブジェクト スクリプトを使用して SQL Server の取り込みを準備する」を参照してください。