メインコンテンツまでスキップ

一般的なパイプラインメンテナンスタスク

マネージド取り込みパイプラインの継続的な操作を実行する方法を学習します。

取り込みパイプラインを再開する

適用対象 :チェックマーク「はい」 SaaSコネクタチェックマーク「はい」データベースコネクタ

パイプラインの実行が予期せず失敗したりハングしたりした場合は、取り込みパイプラインを再起動します。これにより、一時的なネットワークの問題、ソース データベースのタイムアウト、修正された構成エラーなどの一時的な障害を修正できます。

取り込みゲートウェイを再起動します

適用対象 :チェックマーク「はい」データベースコネクタ

ソース データベースの負荷を軽減するために、インジェスト ゲートウェイは新しいテーブルのみを定期的にチェックします。新しいテーブルを検出するには最大 6 時間かかる場合があります。このプロセスを高速化するには、ゲートウェイを再起動します。

完全更新を実行してデータを再取り込みします

適用対象 :チェックマーク「はい」 SaaSコネクタチェックマーク「はい」データベースコネクタ

完全更新では既存のデータがクリアされ、すべてのレコードが再取得されます。データが不整合、不完全、またはソースから再処理する必要がある場合は、ターゲット テーブルを完全に更新します。

完全更新の動作の詳細については、 「ターゲット テーブルの完全更新」を参照してください。

パイプラインスケジュールを更新する

適用対象 :チェックマーク「はい」 SaaSコネクタチェックマーク「はい」データベースコネクタ

データの鮮度要件とソース システムの負荷のバランスをとるために、ソースからデータを取り込む頻度を調整します。

アラートと通知を設定する

適用対象 :チェックマーク「はい」 SaaSコネクタチェックマーク「はい」データベースコネクタ

LakeFlow Connectパイプラインの取り込みとジョブのスケジュールに関する通知を自動的に設定するため、パイプラインの状態を追跡し、障害に関するアラートをタイムリーに受け取ることができます。 必要に応じて通知をカスタマイズできます。

未使用のステージングファイルを削除する

適用対象 :チェックマーク「はい」データベースコネクタ

2025 年 1 月 6 日以降に作成されたインジェスト パイプラインの場合、Databricks はボリューム ステージング データを 25 日後に自動的に削除するようにスケジュールし、30 日後に物理的に削除します。取り込みパイプラインが 25 日間以上正常に完了していない場合、宛先テーブルにデータ ギャップが発生する可能性があります。ギャップを回避するには、ターゲット テーブルの完全な更新をトリガーする必要があります。

2025 年 1 月 6 日より前に作成された取り込みパイプラインについては、Databricks サポートに連絡して、ステージング CDC データの自動保持管理を手動で有効にするようリクエストしてください。

次のデータは自動的にクリーンアップされます:

  • CDCデータファイル
  • スナップショットファイル
  • ステージングテーブルデータ

取り込むテーブルを指定する

適用対象 :チェックマーク「はい」 SaaSコネクタチェックマーク「はい」データベースコネクタ

パイプラインAPIには、パイプライン API のobjectsフィールドに取り込むテーブルを指定する 2 つのメソッドが用意されています。 ingestion_definition:

  • テーブル仕様: 指定されたソース カタログとスキーマから、指定された宛先カタログとスキーマに個々のテーブルを取り込みます。
  • スキーマの指定: 指定されたソース カタログとスキーマのすべてのテーブルを、指定されたカタログとスキーマに取り込みます。

スキーマ全体を取り込むことを選択した場合は、コネクタのパイプラインあたりのテーブル数の制限を確認してください。