管理された取り込みパイプラインのソース データ リネージを追跡する
適用対象 : SaaSコネクタ
データベースコネクタ
マネージド インジェスト パイプラインを実行すると、 LakeFlow Connect 、 SaaSアプリケーションまたはソース データベースのソース テーブルからUnity Catalogの宛先Deltaテーブルにリネージを自動的に記録します。 これにより、 Unity Catalogダウンストリーム クエリ、ジョブ、ダッシュボード、ノートブック用にすでにキャプチャしているリネージ グラフが拡張され、取り込まれたデータをエンドツーエンドで追跡できるようになります。 エンドツーエンドのソースリネージは、取り込まれたデータのデータガバナンス、データ検出、および変更管理のワークフローをサポートします。
各 テーブルについて、 LakeFlow Connect Unity Catalog 外部メタデータ オブジェクト (リネージ グラフの上流ノード) と、そのオブジェクトから宛先テーブルへの 外部リネージ リレーション シップを、列レベルのマッピングとともに書き込みます。 Unity Catalogの外部リネージの背景については、 「独自のデータ リネージの持ち込み」を参照してください。
要件
パイプラインを実行するIDは、メタストアに対してCREATE EXTERNAL METADATA権限を持っている必要があります。パイプラインがサービスプリンシパルとして実行するように構成されている場合は、サービスプリンシパルに権限を付与します。「パイプラインの ID として実行 を構成する」を参照してください。
パイプラインには有効化する設定項目がありません。パイプラインの更新が完了すると、パイプラインはソース リネージを自動的に設定します。
パイプラインがソースリネージを実装する方法
パイプライン更新によるテーブルの処理が完了すると、 LakeFlow Connect取り込まれた各ソース オブジェクトに対して次の処理を実行します。
- 指定したテーブルを表すUnity Catalog 外部メタデータ オブジェクトを作成または更新します。 オブジェクトには、ソース接続名、ソースカタログ、スキーマ、テーブル、ソース列名、ソースシステムタイプ(例:
MicrosoftSQLServer、PostgreSQL、Salesforce)が記録されます。 - 外部メタデータオブジェクトから宛先Deltaテーブルへの 外部リネージリレーション シップを、1:1の列レベルマッピングで作成または更新します。
外部メタデータ名は<connection-name>:<source-table-full-name>で、各.は__に置き換えられます。例えば、 sql_prodという名前の SQL Server 接続がsales.dbo.Customersを取り込むと、外部メタデータ名sql_prod:sales__dbo__Customersが生成されます。名前は接続上でキー設定されるため、同じ接続を通じて同じソース テーブルを取り込むすべてのパイプラインは、同じ外部メタデータ オブジェクトと同じ上流リネージ エッジを共有します。
リネージ作成はベストエフォートです。 リネージ メタデータの書き込みが失敗した場合 (権限がないなどの理由で)、パイプラインは失敗をログに記録して続行します。 根本的な問題を修正した後、次のパイプラインの更新により、不足しているリネージが追加されます。
ソースリネージを見る
取り込まれたテーブルのソース リネージを表示するには:
- Databricks ワークスペースで、
カタログ をクリックします。
- パイプラインが書き込む宛先Deltaテーブルを開きます。
- 「リネージ」 タブをクリックします。
アップストリームノードは、ソーステーブルを表す外部メタデータオブジェクトです。ノードをクリックすると、ソース接続、ソースカタログ、スキーマ、テーブル、および宛先テーブルへの列レベルのマッピングが表示されます。
制限事項
-
各ソーステーブルは、接続ごとに単一の外部メタデータオブジェクトによって表されます。つまり、次のようになるということです。
- 外部メタデータオブジェクトへの手動編集は永続化されません。次回のパイプライン更新時に、パイプライン構成から取得した値で上書きされます。
- 接続を共有するパイプラインは、同じ上流リネージを共有します。 複数のパイプラインが同じ接続を使用して同じソーステーブルを取り込む場合、更新のたびに外部メタデータオブジェクトが上書きされます。LakeFlow Connect指定された接続上の指定されたテーブルに対して常に同じ内容を書き込むため、上書きは冪等です。
-
認識されないソースシステムタイプは、
Otherシステムタイプとして記録されます。認識されるタイプは、SQL Server、PostgreSQL、MySQL、Oracle、Salesforce、ServiceNow、およびWorkdayです。