Rastrear linhagem de dados de origem para gerenciar pipeline de ingestão
Aplica-se a : Conectores SaaS
Conectores de banco de dados
Ao gerenciar a execução de um pipeline de ingestão, LakeFlow Connect registra automaticamente a linhagem das tabelas de origem em seu aplicativo SaaS ou banco de dados de origem para as tabelas Delta de destino no Unity Catalog. Isso amplia o gráfico de linhagem que Unity Catalog já captura para consultas subsequentes, Jobs, dashboards e Notebooks, permitindo rastrear os dados ingeridos de ponta a ponta. A linhagem de origem ponta a ponta oferece suporte à governança de dados, descoberta e fluxo de trabalho de gerenciamento de mudanças para dados ingeridos.
Para cada tabela de origem, LakeFlow Connect grava um objeto de metadados externos Unity Catalog (o nó upstream no gráfico de linhagem) e um relacionamento de linhagem externo desse objeto para a tabela de destino, com mapeamentos em nível de coluna. Para obter informações básicas sobre linhagem externa no Unity Catalog, consulte Traga sua própria linhagem de dados.
Requisitos
A identidade que executa o pipeline deve ter o privilégio CREATE EXTERNAL METADATA no metastore. Se o pipeline estiver configurado para execução como entidade de serviço, conceda o privilégio à entidade de serviço. Consulte Configurar a identidade de execução para um pipeline.
Não existe nenhuma configuração para ativar no pipeline. Após a conclusão de uma atualização pipeline , a pipeline de origem é preenchida automaticamente.
Como o pipeline preenche a linhagem de origem
Após a conclusão do processamento de uma tabela por meio de uma atualização pipeline , LakeFlow Connect executa as seguintes ações para cada objeto de origem ingerido:
- Cria ou atualiza um objeto de metadados externos Unity Catalog que representa a tabela de origem. O objeto registra o nome da conexão de origem, catálogo de origem, esquema e tabela, juntamente com os nomes das colunas de origem e o tipo de sistema de origem (por exemplo,
MicrosoftSQLServer,PostgreSQL,Salesforce). - Cria ou atualiza uma relação de linhagem externa do objeto de metadados externo para a tabela Delta de destino, com um mapeamento de 1:1 em nível de coluna.
O nome dos metadados externos é <connection-name>:<source-table-full-name>, com cada . substituído por __. Por exemplo, uma conexão do SQL Server chamada sql_prod que ingere sales.dbo.Customers produz o nome de metadados externos sql_prod:sales__dbo__Customers. Como o nome está vinculado à conexão, todos os pipelines que ingerem a mesma tabela de origem por meio da mesma conexão compartilham o mesmo objeto de metadados externos e as mesmas arestas de linhagem upstream.
A criação de linhagens é feita com o máximo empenho. Se a gravação dos metadados de linhagem falhar (por exemplo, devido à falta de um privilégio), o pipeline logs a falha e continua. Após corrigir o problema subjacente, a próxima atualização do pipeline preencherá a linhagem ausente.
ver linhagem de origem
Para view a linhagem de origem de uma tabela ingerida:
- No seu workspace Databricks , clique em
Catálogo .
- Abra a tabela Delta de destino na qual o pipeline grava.
- Clique na tab Linhagem .
O nó upstream é o objeto de metadados externo que representa a tabela de origem. Clique no nó para visualizar a conexão de origem, o catálogo de origem, o esquema e a tabela, juntamente com os mapeamentos em nível de coluna para a tabela de destino.
Limitações
-
Cada tabela de origem é representada por um único objeto de metadados externo por conexão. Isso significa:
- As edições manuais no objeto de metadados externo não são persistentes: a próxima atualização do pipeline as sobrescreve com valores derivados da configuração do pipeline.
- Os canais que compartilham uma conexão compartilham a mesma linhagem upstream. Se vários pipelines utilizarem a mesma conexão para ingerir a mesma tabela de origem, cada atualização sobrescreverá o objeto de metadados externo. As sobrescritas são idempotentes porque LakeFlow Connect sempre grava o mesmo conteúdo para uma tabela de origem específica em uma conexão específica.
-
Os tipos de sistema de origem que não são reconhecidos são registrados com o tipo de sistema
Other. Os tipos reconhecidos são SQL Server, PostgreSQL, MySQL, Oracle, Salesforce, ServiceNow e Workday.