Databricks に取り込むための SQL Server の構成

プレビュー

LakeFlow Connect はゲート付きパブリック プレビュー段階です。 プレビューに参加するには、Databricks アカウント チームにお問い合わせください。

この記事では、LakeFlow Connect を使用して SQL Server から Databricks にインジェストするために必要な前提条件となるソースのセットアップの決定とタスクの概要について説明します。

Change Tracking vs. チェンジデータキャプチャ

からデータを抽出するには、Databricks MicrosoftMicrosoftチェンジ トラッキングまたは チェンジデータ キャプチャ ()CDCSQL Server が必要です。

  • 変更追跡 では、テーブル内の行が変更されたという事実はキャプチャされますが、実際の操作はキャプチャされません。

  • チェンジデータキャプチャ は、テーブルに対するすべての操作をキャプチャします。

次の表に、変更の追跡と CDC のどちらを選択するかを選択する際の考慮事項を示します。

変更の追跡

チェンジデータキャプチャ

テーブル内の行が変更されたという事実をキャプチャしますが、実際の変更や行われた変更の数はキャプチャしません。

テーブル内のローが変更されたという事実と、実際の変更をキャプチャします。

CPU とストレージのオーバーヘッドが少ない。

CPU とストレージのオーバーヘッドが高い。

テーブルにプライマリキーがある場合、Databricks では最適なパフォーマンスを得るために CT を使用することをお勧めします。

プライマリ・キーが存在しない場合は、CDC を使用する必要があります。

TRUNCATE DDL はブロックされません。

DDL TRUNCATE ブロックします。

確定的な操作はキャプチャされません。 たとえば、 delete > insert > update シーケンスが挿入として記録される場合があります。

各挿入、更新、および削除操作をフル イメージでキャプチャします。

DDL のネイティブ サポートはありません。 DDL サポートでは、テーブルの再初期化が必要になる場合があります。

DDL のネイティブ サポートは限定的ですが、場合によってはテーブルの再初期化が必要になります。

これらのオプションの詳細については、 ドキュメントの「 データ変更の追跡 ()」SQL Server SQL Serverを参照してください。

ソース設定タスクの概要

Databricks にデータを取り込む前に、SQL Server で次のタスクを完了する必要があります。

  • SQL Server のバージョン要件を満たしていることを確認します。

    • 変更の追跡を使用するには、SQL Server 2012 以降が必要です。

    • CDC を使用するには、SQL Server 2012 以降が必要です。 SQL Server 2016 より前のバージョンには、さらに Enterprise エディションが必要です。

  • Databricks インジェスト専用で、 特権要件を満たすデータベース ユーザーを SQL Server に作成します。

  • 変更の追跡または組み込みの CDC を有効にします。