Pular para o conteúdo principal

Rastrear linhagem de dados de origem para gerenciar pipeline de ingestão

Aplica-se a : Ícone de visto verde Conectores SaaS Ícone de visto verde Conectores de banco de dados

Ao gerenciar a execução de um pipeline de ingestão, LakeFlow Connect registra automaticamente a linhagem das tabelas de origem em seu aplicativo SaaS ou banco de dados de origem para as tabelas Delta de destino no Unity Catalog. Isso amplia o gráfico de linhagem que Unity Catalog já captura para consultas subsequentes, Jobs, dashboards e Notebooks, permitindo rastrear os dados ingeridos de ponta a ponta. A linhagem de origem ponta a ponta oferece suporte à governança de dados, descoberta e fluxo de trabalho de gerenciamento de mudanças para dados ingeridos.

Para cada tabela de origem, o LakeFlow Connect grava um objeto do Unity Catalog de metadados externos (o nó upstream no gráfico de linhagem) e um relacionamento de linhagem externa desse objeto para a tabela de destino, com mapeamentos em nível de coluna. Para saber mais sobre a linhagem externa no Unity Catalog, consulte Linhagem externa.

Requisitos

A identidade que executa o pipeline deve ter o privilégio CREATE EXTERNAL METADATA no metastore. Se o pipeline estiver configurado para execução como entidade de serviço, conceda o privilégio à entidade de serviço. Consulte Configurar a identidade de execução para um pipeline.

Não existe nenhuma configuração para ativar no pipeline. Após a conclusão de uma atualização pipeline , a pipeline de origem é preenchida automaticamente.

Como o pipeline preenche a linhagem de origem

Após a conclusão do processamento de uma tabela por meio de uma atualização pipeline , LakeFlow Connect executa as seguintes ações para cada objeto de origem ingerido:

  1. Cria ou atualiza um objeto de metadados externos Unity Catalog que representa a tabela de origem. O objeto registra o nome da conexão de origem, catálogo de origem, esquema e tabela, juntamente com os nomes das colunas de origem e o tipo de sistema de origem (por exemplo, MicrosoftSQLServer, PostgreSQL, Salesforce).
  2. Cria ou atualiza uma relação de linhagem externa do objeto de metadados externo para a tabela Delta de destino, com um mapeamento de 1:1 em nível de coluna.

O nome dos metadados externos é <connection-name>:<source-table-full-name>, com cada . substituído por __. Por exemplo, uma conexão do SQL Server chamada sql_prod que ingere sales.dbo.Customers produz o nome de metadados externos sql_prod:sales__dbo__Customers. Como o nome está vinculado à conexão, todos os pipelines que ingerem a mesma tabela de origem por meio da mesma conexão compartilham o mesmo objeto de metadados externos e as mesmas arestas de linhagem upstream.

A criação de linhagens é feita com o máximo empenho. Se a gravação dos metadados de linhagem falhar (por exemplo, devido à falta de um privilégio), o pipeline logs a falha e continua. Após corrigir o problema subjacente, a próxima atualização do pipeline preencherá a linhagem ausente.

ver linhagem de origem

Para view a linhagem de origem de uma tabela ingerida:

  1. No seu workspace Databricks , clique em Ícone de dados. Catálogo .
  2. Abra a tabela Delta de destino na qual o pipeline grava.
  3. Clique na tab Linhagem .

O nó upstream é o objeto de metadados externo que representa a tabela de origem. Clique no nó para visualizar a conexão de origem, o catálogo de origem, o esquema e a tabela, juntamente com os mapeamentos em nível de coluna para a tabela de destino.

Limitações

  • Cada tabela de origem é representada por um único objeto de metadados externo por conexão. Isso significa:

    • As edições manuais no objeto de metadados externo não são persistentes: a próxima atualização do pipeline as sobrescreve com valores derivados da configuração do pipeline.
    • Os canais que compartilham uma conexão compartilham a mesma linhagem upstream. Se vários pipelines utilizarem a mesma conexão para ingerir a mesma tabela de origem, cada atualização sobrescreverá o objeto de metadados externo. As sobrescritas são idempotentes porque LakeFlow Connect sempre grava o mesmo conteúdo para uma tabela de origem específica em uma conexão específica.
  • Os tipos de sistema de origem que não são reconhecidos são registrados com o tipo de sistema Other . Os tipos reconhecidos são SQL Server, PostgreSQL, MySQL, Oracle, Salesforce, ServiceNow e Workday.

Recursos adicionais