マネージド取り込みパイプラインの一般的なパターン
LakeFlow Connect管理された取り込みパイプラインを最適化するためのパターンとテクニックを提供します。 これらのパターンを使用して、取り込まれるデータの制御、パイプラインの更新の管理、高度な動作の構成を行います。
すべてのコネクタがこのセクションの共通パターンをサポートしているわけではありません。
トピック | 説明 |
|---|---|
取り込み中に特定の列を選択または除外して、データ量を削減し、パフォーマンスを向上させます。 | |
ソース システムからデータを完全に強制的に再ロードします。 | |
緩やかに変化するディメンション ( SCD ) タイプ 2 を使用して、データの履歴的な変更を追跡します。 | |
システムテーブルを使用して、パイプラインのコストを追跡し、使用パターンを監視します。 | |
単一のソースから複数の宛先テーブルまたはカタログにデータを取り込みます。 | |
パイプラインの更新、停止する、ワークフローのトラブルシューティングを管理します。 | |
リソースの編成、所有権の追跡、コストの帰属にパイプライン タグを適用します。 | |
SQL のような条件を使用して、取り込み中に行をフィルタリングします。 | |
パイプライン実行時にどのIDの権限を使用するかを設定します。 | |
宛先テーブル名を指定します。デフォルトでは、宛先テーブルには対応するソーステーブルの名前が付けられます。ただし、同じスキーマ内で同じソースオブジェクトを2回取り込む場合は、宛先テーブルに名前を付けておくと便利です。マネージドコネクタは、同じ宛先スキーマ内で重複するテーブル名をサポートしていません。宛先テーブルに名前を付けることで、組織の命名規則にテーブルを合わせることもできます。 | |
データベースコネクタパイプラインのTLS証明書検証を設定し、ソースデータベースサーバーの身元を確認して中間者攻撃(PITM攻撃)を防止します。 |