Databricks に取り込むための SQL Server の構成
プレビュー
LakeFlow Connect はゲート付きパブリック プレビュー段階です。 プレビューに参加するには、Databricks アカウント チームにお問い合わせください。
この記事では、LakeFlow Connect を使用して SQL Server から Databricks にインジェストするために必要な前提条件となるソースのセットアップの決定とタスクの概要について説明します。
Change Tracking vs. チェンジデータキャプチャ
からデータを抽出するには、Databricks MicrosoftMicrosoftチェンジ トラッキングまたは チェンジデータ キャプチャ ()CDCSQL Server が必要です。
変更追跡 では、テーブル内の行が変更されたという事実はキャプチャされますが、実際の操作はキャプチャされません。
チェンジデータキャプチャ は、テーブルに対するすべての操作をキャプチャします。
次の表に、変更の追跡と CDC のどちらを選択するかを選択する際の考慮事項を示します。
変更の追跡 |
チェンジデータキャプチャ |
---|---|
テーブル内の行が変更されたという事実をキャプチャしますが、実際の変更や行われた変更の数はキャプチャしません。 |
テーブル内のローが変更されたという事実と、実際の変更をキャプチャします。 |
CPU とストレージのオーバーヘッドが少ない。 |
CPU とストレージのオーバーヘッドが高い。 |
テーブルにプライマリキーがある場合、Databricks では最適なパフォーマンスを得るために CT を使用することをお勧めします。 |
プライマリ・キーが存在しない場合は、CDC を使用する必要があります。 |
|
DDL |
確定的な操作はキャプチャされません。 たとえば、 |
各挿入、更新、および削除操作をフル イメージでキャプチャします。 |
DDL のネイティブ サポートはありません。 DDL サポートでは、テーブルの再初期化が必要になる場合があります。 |
DDL のネイティブ サポートは限定的ですが、場合によってはテーブルの再初期化が必要になります。 |
これらのオプションの詳細については、 ドキュメントの「 データ変更の追跡 ()」SQL Server SQL Serverを参照してください。
ソース設定タスクの概要
Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。
SQL Server のバージョン要件を満たしていることを確認します。
変更の追跡を使用するには、SQL Server 2012 以降が必要です。
CDC を使用するには、SQL Server 2012 以降が必要です。 SQL Server 2016 より前のバージョンには、さらに Enterprise エディションが必要です。
Databricks インジェスト専用で、 特権要件を満たすデータベース ユーザーを SQL Server に作成します。
変更の追跡または組み込みの CDC を有効にします。