Databricks に取り込むための Microsoft SQL Server の構成
プレビュー
Microsoft SQL Server コネクタは、ゲート パブリック プレビュー段階です。プレビューに参加するには、Databricks アカウント チームにお問い合わせください。
この記事では、LakeFlow Connectを使用してMicrosoft SQL Server (SQL Server) から Databricksにデータを取り込むために必要な前提条件のソース セットアップの決定とタスクの概要について説明します。
変更の追跡と変更データキャプチャの比較
SQL ServerからDatabricksにデータを抽出するには、MicrosoftチェンジトラッキングかMicrosoftチェンジデータキャプチャ(CDC)のどちらかが必要です。
- 変更追跡 では、テーブル内の行が変更されたという事実はキャプチャされますが、実際の操作はキャプチャされません。
- 変更データキャプチャ は、テーブルに対するすべての操作をキャプチャします。
次の表に、変更の追跡と CDC のどちらを選択するかを選択する際の考慮事項を示します。
変更の追跡 | 変更データキャプチャ |
---|---|
テーブル内の行が変更されたという事実をキャプチャしますが、実際の変更や行われた変更の数はキャプチャしません。 | テーブル内のローが変更されたという事実と、実際の変更をキャプチャします。 |
CPU とストレージのオーバーヘッドが少ない。 | CPU とストレージのオーバーヘッドが高い。 |
テーブルにプライマリキーがある場合、Databricks では最適なパフォーマンスを得るために CT を使用することをお勧めします。 | プライマリ・キーが存在しない場合は、CDC を使用する必要があります。 |
| DDL |
確定的な操作はキャプチャされません。たとえば、 | 各挿入、更新、および削除操作をフル イメージでキャプチャします。 |
DDL のネイティブ サポートはありません。DDL サポートでは、テーブルの再初期化が必要になる場合があります。 | DDL のネイティブ サポートは限定的ですが、場合によってはテーブルの再初期化が必要になります。 |
これらのオプションの詳細については、「 データ変更の追跡 (SQL Server)」を参照してください。
ソース設定タスクの概要
Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。
-
SQL Server のバージョン要件を満たしていることを確認します。
- 変更の追跡を使用するには、SQL Server 2012 以降が必要です。
- CDC を使用するには、SQL Server 2012 以降が必要です。SQL Server 2016 より前のバージョンには、さらに Enterprise エディションが必要です。
-
Databricks インジェスト専用で、 特権要件を満たすデータベース ユーザーを SQL Server に作成します。
-
変更の追跡または組み込みの CDC を有効にします。