メインコンテンツまでスキップ

管理された取り込みパイプラインのソース データ リネージを追跡する

適用対象 :緑色のチェックマーク SaaSコネクタ緑色のチェックマークデータベースコネクタ

マネージド インジェスト パイプラインを実行すると、 LakeFlow Connect 、 SaaSアプリケーションまたはソース データベースのソース テーブルからUnity Catalogの宛先Deltaテーブルにリネージを自動的に記録します。 これにより、 Unity Catalogダウンストリーム クエリ、ジョブ、ダッシュボード、ノートブック用にすでにキャプチャしているリネージ グラフが拡張され、取り込まれたデータをエンドツーエンドで追跡できるようになります。 エンドツーエンドのソースリネージは、取り込まれたデータのデータガバナンス、データ検出、および変更管理のワークフローをサポートします。

各 テーブルについて、 LakeFlow Connect Unity Catalog 外部メタデータ オブジェクト (リネージ グラフの上流ノード) と、そのオブジェクトから宛先テーブルへの 外部リネージ リレーション シップを、列レベルのマッピングとともに書き込みます。 Unity Catalogの外部リネージの背景については、 「独自のデータ リネージの持ち込み」を参照してください。

要件

パイプラインを実行するIDは、メタストアに対してCREATE EXTERNAL METADATA権限を持っている必要があります。パイプラインがサービスプリンシパルとして実行するように構成されている場合は、サービスプリンシパルに権限を付与します。「パイプラインの ID として実行 を構成する」を参照してください。

パイプラインには有効化する設定項目がありません。パイプラインの更新が完了すると、パイプラインはソース リネージを自動的に設定します。

パイプラインがソースリネージを実装する方法

パイプライン更新によるテーブルの処理が完了すると、 LakeFlow Connect取り込まれた各ソース オブジェクトに対して次の処理を実行します。

  1. 指定したテーブルを表すUnity Catalog 外部メタデータ オブジェクトを作成または更新します。 オブジェクトには、ソース接続名、ソースカタログ、スキーマ、テーブル、ソース列名、ソースシステムタイプ(例: MicrosoftSQLServerPostgreSQLSalesforce )が記録されます。
  2. 外部メタデータオブジェクトから宛先Deltaテーブルへの 外部リネージリレーション シップを、1:1の列レベルマッピングで作成または更新します。

外部メタデータ名は<connection-name>:<source-table-full-name>で、各.__に置き換えられます。例えば、 sql_prodという名前の SQL Server 接続がsales.dbo.Customersを取り込むと、外部メタデータ名sql_prod:sales__dbo__Customersが生成されます。名前は接続上でキー設定されるため、同じ接続を通じて同じソース テーブルを取り込むすべてのパイプラインは、同じ外部メタデータ オブジェクトと同じ上流リネージ エッジを共有します。

リネージ作成はベストエフォートです。 リネージ メタデータの書き込みが失敗した場合 (権限がないなどの理由で)、パイプラインは失敗をログに記録して続行します。 根本的な問題を修正した後、次のパイプラインの更新により、不足しているリネージが追加されます。

ソースリネージを見る

取り込まれたテーブルのソース リネージを表示するには:

  1. Databricks ワークスペースで、データアイコン。 カタログ をクリックします。
  2. パイプラインが書き込む宛先Deltaテーブルを開きます。
  3. 「リネージ」 タブをクリックします。

アップストリームノードは、ソーステーブルを表す外部メタデータオブジェクトです。ノードをクリックすると、ソース接続、ソースカタログ、スキーマ、テーブル、および宛先テーブルへの列レベルのマッピングが表示されます。

制限事項

  • 各ソーステーブルは、接続ごとに単一の外部メタデータオブジェクトによって表されます。つまり、次のようになるということです。

    • 外部メタデータオブジェクトへの手動編集は永続化されません。次回のパイプライン更新時に、パイプライン構成から取得した値で上書きされます。
    • 接続を共有するパイプラインは、同じ上流リネージを共有します。 複数のパイプラインが同じ接続を使用して同じソーステーブルを取り込む場合、更新のたびに外部メタデータオブジェクトが上書きされます。LakeFlow Connect指定された接続上の指定されたテーブルに対して常に同じ内容を書き込むため、上書きは冪等です。
  • 認識されないソースシステムタイプは、 Otherシステムタイプとして記録されます。認識されるタイプは、SQL Server、PostgreSQL、MySQL、Oracle、Salesforce、ServiceNow、およびWorkdayです。

その他のリソース