メインコンテンツまでスキップ

Databricks に取り込むための Microsoft SQL Server の構成

備考

プレビュー

Microsoft SQL Server コネクタは パブリック プレビュー段階です。

この記事では、 LakeFlow Connect を使用して SQL Server から Databricksに取り込むために必要なソース セットアップの概要について説明します。

変更の追跡と変更データキャプチャの比較

Change Tracking と チェンジデータキャプチャ (CDC) を使用すると、 Databricks ソース テーブルの変更を追跡できます。 Databricks では、ソース データベースの負荷を最小限に抑えるために、主キーを持つすべてのテーブルに対して変更追跡を使用することをお勧めします。変更の追跡と CDC の両方が有効になっている場合、SQL Server コネクタは変更の追跡を使用します。

  • 変更の追跡: テーブル内の行が変更されたという事実をキャプチャしますが、実際の操作はキャプチャしません。変更の追跡では、テーブルに主キーが必要ですが、これはソース データベースに大きな影響を与えない軽量のプロセスです。

  • CDC: テーブルに対するすべての操作をキャプチャし、時間の経過と共に行われた変更の履歴ビューが含まれます。CDC では、テーブルに主キーは必要ありませんが、ソース データベースのパフォーマンスに大きな影響を与える可能性があります。

これらのオプションの詳細については、「 データ変更の追跡 (SQL Server)」を参照してください。

ソース設定タスクの概要

Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。

  1. SQL Server のバージョン要件を満たしていることを確認します。

    • 変更の追跡を使用するには、SQL Server 2012 以降が必要です。
    • CDCを使用するには、SQL Server 2012 サービス パック 1 (SP1) 累積更新プログラム パッケージ 3 (CU3) 以降が必要です。SQL Server 2016 より前のバージョンでは、Enterprise Edition も必要です。
  2. 必要に応じて、ファイアウォール設定を構成します。

  3. Databricks インジェスト専用で、 特権要件を満たすデータベース ユーザーを SQL Server に作成します。

  4. 変更の追跡または CDC を有効にします。