Databricks に取り込むための SQL Server の構成
備考
プレビュー
LakeFlow Connect はゲート パブリック プレビュー段階です。 プレビューに参加するには、Databricks アカウント チームにお問い合わせください。
この記事では、LakeFlow Connect を使用して SQL Server から Databricks にインジェストするために必要な前提条件となるソースのセットアップの決定とタスクの概要について説明します。
変更の追跡と変更データキャプチャの比較
からデータを抽出するには、Databricks MicrosoftMicrosoftチェンジ トラッキングまたは チェンジデータ キャプチャ ()CDCSQL Server が必要です。
- 変更追跡 では、テーブル内の行が変更されたという事実はキャプチャされますが、実際の操作はキャプチャされません。
- チェンジデータキャプチャ は、テーブルに対するすべての操作をキャプチャします。
次の表に、変更の追跡と CDC のどちらを選択するかを選択する際の考慮事項を示します。
変更の追跡 | チェンジデータキャプチャ |
---|---|
テーブル内の行が変更されたという事実をキャプチャしますが、実際の変更や行われた変更の数はキャプチャしません。 | テーブル内のローが変更されたという事実と、実際の変更をキャプチャします。 |
CPUとストレージのオーバーヘッドが低い。 | CPU とストレージのオーバーヘッドが高い。 |
テーブルにプライマリキーがある場合、Databricks では最適なパフォーマンスを得るために CT を使用することをお勧めします。 | プライマリ・キーが存在しない場合は、CDC を使用する必要があります。 |
TRUNCATE DDL はブロックされません。 | DDL TRUNCATE ブロックします。 |
確定的な操作はキャプチャされません。 たとえば、 delete > insert > update シーケンスが挿入として記録される場合があります。 | 各挿入、更新、および削除操作をフル イメージでキャプチャします。 |
DDL のネイティブ サポートはありません。 DDL サポートでは、テーブルの再初期化が必要になる場合があります。 | DDL のネイティブ サポートは限定的ですが、場合によってはテーブルの再初期化が必要になります。 |
これらのオプションの詳細については、「 データ変更の追跡 (SQL Server)」を参照してください。
ソース設定タスクの概要
Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。
-
SQL Server のバージョン要件を満たしていることを確認します。
- 変更の追跡を使用するには、SQL Server 2012 以降が必要です。
- CDC を使用するには、SQL Server 2012 以降が必要です。 SQL Server 2016 より前のバージョンには、さらに Enterprise エディションが必要です。
-
Databricks インジェスト専用で、 特権要件を満たすデータベース ユーザーを SQL Server に作成します。
-
変更の追跡または組み込みの CDC を有効にします。