Rastrear linhagem de dados de origem para gerenciar pipeline de ingestão
Aplica-se a : Conectores SaaS
Conectores de banco de dados
Ao gerenciar a execução de um pipeline de ingestão, LakeFlow Connect registra automaticamente a linhagem das tabelas de origem em seu aplicativo SaaS ou banco de dados de origem para as tabelas Delta de destino no Unity Catalog. Isso amplia o gráfico de linhagem que Unity Catalog já captura para consultas subsequentes, Jobs, dashboards e Notebooks, permitindo rastrear os dados ingeridos de ponta a ponta. A linhagem de origem ponta a ponta oferece suporte à governança de dados, descoberta e fluxo de trabalho de gerenciamento de mudanças para dados ingeridos.
Para cada tabela de origem, o LakeFlow Connect grava um objeto do Unity Catalog de metadados externos (o nó upstream no gráfico de linhagem) e um relacionamento de linhagem externa desse objeto para a tabela de destino, com mapeamentos em nível de coluna. Para saber mais sobre a linhagem externa no Unity Catalog, consulte Linhagem externa.
Requisitos
A identidade que executa o pipeline deve ter o privilégio CREATE EXTERNAL METADATA no metastore. Se o pipeline estiver configurado para execução como entidade de serviço, conceda o privilégio à entidade de serviço. Consulte Configurar a identidade de execução para um pipeline.
Não existe nenhuma configuração para ativar no pipeline. Após a conclusão de uma atualização pipeline , a pipeline de origem é preenchida automaticamente.
Como o pipeline preenche a linhagem de origem
Após a conclusão do processamento de uma tabela por meio de uma atualização pipeline , LakeFlow Connect executa as seguintes ações para cada objeto de origem ingerido:
- Cria ou atualiza um objeto de metadados externos Unity Catalog que representa a tabela de origem. O objeto registra o nome da conexão de origem, catálogo de origem, esquema e tabela, juntamente com os nomes das colunas de origem e o tipo de sistema de origem (por exemplo,
MicrosoftSQLServer,PostgreSQL,Salesforce). - Cria ou atualiza uma relação de linhagem externa do objeto de metadados externo para a tabela Delta de destino, com um mapeamento de 1:1 em nível de coluna.
O nome dos metadados externos é <connection-name>:<source-table-full-name>, com cada . substituído por __. Por exemplo, uma conexão do SQL Server chamada sql_prod que ingere sales.dbo.Customers produz o nome de metadados externos sql_prod:sales__dbo__Customers. Como o nome está vinculado à conexão, todos os pipelines que ingerem a mesma tabela de origem por meio da mesma conexão compartilham o mesmo objeto de metadados externos e as mesmas arestas de linhagem upstream.
A criação de linhagens é feita com o máximo empenho. Se a gravação dos metadados de linhagem falhar (por exemplo, devido à falta de um privilégio), o pipeline logs a falha e continua. Após corrigir o problema subjacente, a próxima atualização do pipeline preencherá a linhagem ausente.
ver linhagem de origem
Para view a linhagem de origem de uma tabela ingerida:
- No seu workspace Databricks , clique em
Catálogo .
- Abra a tabela Delta de destino na qual o pipeline grava.
- Clique na tab Linhagem .
O nó upstream é o objeto de metadados externo que representa a tabela de origem. Clique no nó para visualizar a conexão de origem, o catálogo de origem, o esquema e a tabela, juntamente com os mapeamentos em nível de coluna para a tabela de destino.
Limitações
-
Cada tabela de origem é representada por um único objeto de metadados externo por conexão. Isso significa:
- As edições manuais no objeto de metadados externo não são persistentes: a próxima atualização do pipeline as sobrescreve com valores derivados da configuração do pipeline.
- Os canais que compartilham uma conexão compartilham a mesma linhagem upstream. Se vários pipelines utilizarem a mesma conexão para ingerir a mesma tabela de origem, cada atualização sobrescreverá o objeto de metadados externo. As sobrescritas são idempotentes porque LakeFlow Connect sempre grava o mesmo conteúdo para uma tabela de origem específica em uma conexão específica.
-
Os tipos de sistema de origem que não são reconhecidos são registrados com o tipo de sistema
Other. Os tipos reconhecidos são SQL Server, PostgreSQL, MySQL, Oracle, Salesforce, ServiceNow e Workday.