SQL Server インジェスト パイプラインを維持する
プレビュー
Microsoft SQL Server コネクタは パブリック プレビュー段階です。
このページでは、SQL Server インジェスト パイプラインを維持するための継続的な操作について説明します。
一般的なパイプラインのメンテナンス
このセクションのパイプライン メンテナンス タスクは、 LakeFlow Connectのすべてのマネージド コネクタに適用されます。
対象テーブルを完全に更新する
インジェスト パイプラインを完全に更新すると、テーブルのデータと状態がクリアされ、データソースからすべてのレコードが再処理されます。
-
選択したテーブルを完全に更新するには:
a. Databricks ワークスペースのサイドバーで、 パイプライン をクリックします。b. パイプラインを選択します。c. パイプラインの詳細ページで、インジェストパイプラインの 更新するテーブルを選択 をクリックします。d. 目的のテーブルを選択し、[ 選択内容の完全更新 ] をクリックします。
- 代わりに、インジェスト パイプライン内のすべてのテーブルを完全に更新するには、 スタート ボタンの横にあるドロップダウン メニューをクリックし、 全てを完全更新 をクリックします。
インジェスト パイプラインの更新は、 Initializing
フェーズまたは Resetting tables
フェーズ中に失敗する可能性があります。LakeFlow Connect は、パイプラインを自動的に数回再試行します。 自動再試行が手動で中断された場合、または最終的に致命的に失敗した場合は、前のテーブル更新選択を使用して新しいパイプラインの更新を手動で開始します。これを行わないと、ターゲットテーブルが部分的なデータと一貫性のない状態のままになる可能性があります。手動の再試行も失敗する場合は、サポート チケットを作成します。
インジェスト パイプラインのスケジュールを変更する
- Databricks ワークスペースのサイドバーで、 [パイプライン ] をクリックします。
- パイプラインを選択し、 スケジュール をクリックします。
アラートと通知のカスタマイズ
LakeFlow Connect は、すべてのインジェスト パイプラインとスケジューリング ジョブの通知を自動的に設定します。 通知は、UI でカスタマイズするか、パイプライン APIを使用してカスタマイズできます。
- UI
- API
- 左側のパネルで、[ パイプライン ] をクリックします。
- パイプラインを選択します。
- 「スケジュール」 をクリックします。
- 通知を受け取りたいスケジュールがすでにある場合は、次の操作を行います。 ある。リストでスケジュールを特定します。ある。ケバブメニューをクリックし、「 編集 」をクリックします。ある。[ その他のオプション ] をクリックし、通知を追加します。
- 新しいスケジュールが必要な場合: ある。[ スケジュールの追加 ] をクリックします。ある。スケジュールを設定します。ある。[ その他のオプション ] をクリックし、通知を追加します。
PUT /api/2.0/pipelines/{pipeline_id}ドキュメントの 「通知」を参照してください。
取り込むテーブルを指定する
パイプライン API には、取り込むテーブルを objects
フィールドに指定するための 2 つの方法が用意されています。 ingestion_definition:
- テーブル仕様: 指定したソースカタログとスキーマから、指定した宛先カタログとスキーマに個々のテーブルを取り込みます。
- スキーマ仕様: 指定したソースカタログとスキーマのすべてのテーブルを、指定したカタログとスキーマに取り込みます。
スキーマ全体を取り込むことを選択した場合は、コネクタのパイプラインあたりのテーブル数の制限を確認する必要があります。
CLI コマンド
パイプラインを編集するには、次のコマンドを実行します。
databricks pipelines update --json "<<pipeline_definition OR json file path>"
パイプライン定義を取得するには、次のコマンドを実行します。
databricks pipelines get "<your_pipeline_id>"
パイプラインを削除するには、次のコマンドを実行します。
databricks pipelines delete "<your_pipeline_id>"
詳細については、いつでも次のコマンドを実行できます。
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help
コネクタ固有のパイプラインのメンテナンス
このセクションのパイプライン メンテナンス タスクは、SQL Server コネクタに固有です。
未使用のステージングファイルを削除する
2025 年 1 月 6 日より後に作成されたインジェスト パイプラインの場合、ボリューム ステージング データは 25 日後に自動的に削除され、30 日後に物理的に削除されるようにスケジュールされます。インジェスト パイプラインが 25 日以上正常に完了していないと、宛先テーブルにデータギャップが生じる可能性があります。ギャップを回避するには、ターゲットテーブルの完全更新をトリガーする必要があります。
2025 年 1 月 6 日より前に作成されたインジェスト パイプラインについては、Databricks サポートに連絡して、ステージング CDC データの自動保持管理を手動で有効にするように依頼してください。
次のデータは自動的にクリーンアップされます。
- CDC データ・ファイル
- スナップショット・ファイル
- ステージング・テーブル・データ
インジェスト ゲートウェイを再起動します
ソース データベースの負荷を軽減するために、インジェスト ゲートウェイは新しいテーブルを定期的にチェックするだけです。新しいテーブルが検出されるまでに最大 6 時間かかる場合があります。このプロセスを高速化する場合は、ゲートウェイを再起動します。