Referência de tabelas do sistema de linhagem

Esta página inclui uma referência para as duas tabelas do sistema de linhagem. Essas tabelas do sistema se baseiam no recurso de linhagem de dados do Unity Catalog, permitindo que você consulte programaticamente os dados de linhagem para embasar a tomada de decisões e a geração de relatórios. Para acessar as tabelas, os esquemas devem estar habilitados em seu catálogo system . Para obter mais informações, consulte Habilitar tabelas do sistema.

nota

Ambas as tabelas de linhagem representam um subconjunto de todos os eventos de leitura/gravação, visto que nem sempre é possível capturar a linhagem. Registros são emitidos somente quando a linhagem pode ser inferida. As limitações da linhagem de dados descritas em Limitações também se aplicam às tabelas do sistema de linhagem.

Retenção de dados

As tabelas do sistema de linhagem retêm uma janela móvel de dados de 1 ano. Eventos com mais de um ano são removidos gradualmente. Para obter o histórico de linhagem com mais de um ano, use o Catalog Explorer ou a API de linhagem, que retêm indefinidamente a linhagem capturada após 1º de setembro de 2024.

Tabela tabela de linhagem

A tabela do sistema de linhagem de tabelas inclui um registro para cada evento de leitura ou gravação em uma tabela ou caminho do Unity Catalog. Isso inclui, mas não se limita a, execução de trabalhos, execução de notebooks e painéis atualizados com o evento de leitura ou gravação.

Caminho da tabela : Essa tabela do sistema está localizada em system.access.table_lineage.

Esquema de linhagem de tabelas

A tabela do sistema de linhagem de tabelas usa o esquema a seguir.

Nome da coluna	Tipo de dados	Descrição	Exemplo
`account_id`	string	A ID da conta da Databricks.	`7af234db-66d7-4db3-bbf0-956098224879`
`metastore_id`	string	A ID do metastore do Unity Catalog.	`5a31ba44-bbf4-4174-bf33-e1fa078e6765`
`workspace_id`	string	A ID do workspace	`123456789012345`
`entity_type`	string	O tipo de entidade associada ao registro de linhagem, se houver. O valor é `NOTEBOOK`, `JOB`, `PIPELINE`, `DASHBOARD_V3`, `DBSQL_DASHBOARD` (obsoleto), `DBSQL_QUERY` ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`JOB`
`entity_id`	string	O ID da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`417306252667357`
`entity_run_id`	string	A ID de execução exclusiva da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`688612062233399`
`source_table_full_name`	string	Nome em três partes para identificar a tabela de origem.	`catalog.schema.table`
`source_table_catalog`	string	O catálogo da tabela de origem.	`catalog`
`source_table_schema`	string	O esquema da tabela de origem.	`schema`
`source_table_name`	string	O nome da tabela de origem.	`table`
`source_path`	string	Localização no armazenamento em nuvem da tabela de origem ou o caminho, se ela estiver lendo diretamente do armazenamento em nuvem.	`gs://mybucket/table1`
`source_type`	string	O tipo da fonte. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`target_table_full_name`	string	Nome em três partes para identificar a tabela de destino.	`catalog.schema.table`
`target_table_catalog`	string	O catálogo da tabela de destino.	`catalog`
`target_table_schema`	string	O esquema da tabela de destino.	`schema`
`target_table_name`	string	O nome da tabela de destino.	`table`
`target_path`	string	Localização no armazenamento em nuvem da tabela de destino.	`gs://mybucket/table1`
`target_type`	string	O tipo do alvo. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`created_by`	string	O usuário que gerou essa linhagem. Isso pode ser um nome de usuário Databricks , um ID de entidade de serviço Databricks , um nome de grupo Databricks , “System-User” ou `NULL` se as informações do usuário não puderem ser capturadas.	`crampton.rods@email.com`
`event_time`	carimbo de data/hora	A data e hora em que a linhagem foi gerada. As informações de fuso horário são registradas no final do valor com `+00:00` representando UTC.	`2025-04-20T19:47:21.194+00:00`
`event_date`	Data	A data em que a linhagem foi gerada. Essa é uma coluna particionada.	`2025-04-20`
`record_id`	string	O ID exclusivo do registro de linhagem. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`3c5c8eed-87bb-3aa6-8a86-80d00d48299e`
`event_id`	string	O ID exclusivo de um evento de linhagem única. Várias linhas podem compartilhar o mesmo `event_id` se forem geradas pelo mesmo evento. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`ca123ff3-f3f8-332b-a832-0154a6327353`
`statement_id`	string	O ID exclusivo de uma instrução de consulta que gerou o evento de linhagem. Esse é um key externo para join com a tabela do sistema de história de consulta. Esse valor só é definido quando a consulta é executada a partir de um SQL warehouse.	`1234526f-a6ac-475c-8601-e8637f8ee039`
`entity_metadata`	struct	Metadados sobre a entidade responsável pelo evento de linhagem.	Veja os metadados da entidade
`direct_access`	boolean	Indica se a origem é referenciada diretamente pelo destino da consulta. Quando `true`, a origem está diretamente conectada ao destino da consulta. Quando `false`, a fonte é uma dependência intermediária descoberta através da expansão view . Por exemplo, se uma consulta lê de uma view, o registro de linhagem para a tabela base subjacente da view é registrado com `direct_access = false`.	`true`

Nome da coluna	Tipo de dados	Descrição	Exemplo
`account_id`	string	A ID da conta da Databricks.	`7af234db-66d7-4db3-bbf0-956098224879`
`metastore_id`	string	A ID do metastore do Unity Catalog.	`5a31ba44-bbf4-4174-bf33-e1fa078e6765`
`workspace_id`	string	A ID do workspace	`123456789012345`
`entity_type`	string	O tipo de entidade associada ao registro de linhagem, se houver. O valor é `NOTEBOOK`, `JOB`, `PIPELINE`, `DASHBOARD_V3`, `DBSQL_DASHBOARD` (obsoleto), `DBSQL_QUERY` ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`JOB`
`entity_id`	string	O ID da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`417306252667357`
`entity_run_id`	string	A ID de execução exclusiva da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`688612062233399`
`source_table_full_name`	string	Nome em três partes para identificar a tabela de origem.	`catalog.schema.table`
`source_table_catalog`	string	O catálogo da tabela de origem.	`catalog`
`source_table_schema`	string	O esquema da tabela de origem.	`schema`
`source_table_name`	string	O nome da tabela de origem.	`table`
`source_path`	string	Localização no armazenamento em nuvem da tabela de origem ou o caminho, se ela estiver lendo diretamente do armazenamento em nuvem.	`gs://mybucket/table1`
`source_type`	string	O tipo da fonte. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`target_table_full_name`	string	Nome em três partes para identificar a tabela de destino.	`catalog.schema.table`
`target_table_catalog`	string	O catálogo da tabela de destino.	`catalog`
`target_table_schema`	string	O esquema da tabela de destino.	`schema`
`target_table_name`	string	O nome da tabela de destino.	`table`
`target_path`	string	Localização no armazenamento em nuvem da tabela de destino.	`gs://mybucket/table1`
`target_type`	string	O tipo do alvo. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`created_by`	string	O usuário que gerou essa linhagem. Isso pode ser um nome de usuário Databricks , um ID de entidade de serviço Databricks , um nome de grupo Databricks , “System-User” ou `NULL` se as informações do usuário não puderem ser capturadas.	`crampton.rods@email.com`
`event_time`	carimbo de data/hora	A data e hora em que a linhagem foi gerada. As informações de fuso horário são registradas no final do valor com `+00:00` representando UTC.	`2025-04-20T19:47:21.194+00:00`
`event_date`	Data	A data em que a linhagem foi gerada. Essa é uma coluna particionada.	`2025-04-20`
`record_id`	string	O ID exclusivo do registro de linhagem. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`3c5c8eed-87bb-3aa6-8a86-80d00d48299e`
`event_id`	string	O ID exclusivo de um evento de linhagem única. Várias linhas podem compartilhar o mesmo `event_id` se forem geradas pelo mesmo evento. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`ca123ff3-f3f8-332b-a832-0154a6327353`
`statement_id`	string	O ID exclusivo de uma instrução de consulta que gerou o evento de linhagem. Esse é um key externo para join com a tabela do sistema de história de consulta. Esse valor só é definido quando a consulta é executada a partir de um SQL warehouse.	`1234526f-a6ac-475c-8601-e8637f8ee039`
`entity_metadata`	struct	Metadados sobre a entidade responsável pelo evento de linhagem.	Veja os metadados da entidade
`direct_access`	boolean	Indica se a origem é referenciada diretamente pelo destino da consulta. Quando `true`, a origem está diretamente conectada ao destino da consulta. Quando `false`, a fonte é uma dependência intermediária descoberta através da expansão view . Por exemplo, se uma consulta lê de uma view, o registro de linhagem para a tabela base subjacente da view é registrado com `direct_access = false`.	`true`

Tabela de linhagem de colunas

A tabela de linhagem de colunas não inclui eventos que não tenham uma fonte. Por exemplo, se você inserir em uma coluna usando valores explícitos, ela não será capturada. Se você ler uma coluna, ela será capturada independentemente de você escrever ou não a saída.

Caminho da tabela : Essa tabela do sistema está localizada em system.access.column_lineage.

Esquema de linhagem de colunas

A tabela do sistema de linhagem de colunas usa o seguinte esquema:

Nome da coluna	Tipo de dados	Descrição	Exemplo
`account_id`	string	A ID da conta da Databricks.	`7af234db-66d7-4db3-bbf0-956098224879`
`metastore_id`	string	A ID do metastore do Unity Catalog.	`5a31ba44-bbf4-4174-bf33-e1fa078e6765`
`workspace_id`	string	A ID do workspace	`123456789012345`
`entity_type`	string	O tipo de entidade associada ao registro de linhagem, se houver. O valor é `NOTEBOOK`, `JOB`, `PIPELINE`, `DASHBOARD_V3`, `DBSQL_DASHBOARD` (obsoleto), `DBSQL_QUERY` ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`JOB`
`entity_id`	string	O ID da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`417306252667357`
`entity_run_id`	string	A ID de execução exclusiva da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`688612062233399`
`source_table_full_name`	string	Nome em três partes para identificar a tabela de origem.	`catalog.schema.table`
`source_table_catalog`	string	O catálogo da tabela de origem.	`catalog`
`source_table_schema`	string	O esquema da tabela de origem.	`schema`
`source_table_name`	string	O nome da tabela de origem.	`table`
`source_path`	string	Localização no armazenamento em nuvem da tabela de origem ou o caminho, se ela estiver lendo diretamente do armazenamento em nuvem.	`gs://mybucket/table1`
`source_type`	string	O tipo da fonte. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`source_column_name`	string	O nome da coluna de origem.	`date`
`target_table_full_name`	string	Nome em três partes para identificar a tabela de destino.	`catalog.schema.table`
`target_table_catalog`	string	O catálogo da tabela de destino.	`catalog`
`target_table_schema`	string	O esquema da tabela de destino.	`schema`
`target_table_name`	string	O nome da tabela de destino.	`table`
`target_path`	string	Localização no armazenamento em nuvem da tabela de destino.	`gs://mybucket/table1`
`target_type`	string	O tipo do alvo. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`target_column_name`	string	O nome da coluna de destino.	`date`
`created_by`	string	O usuário que gerou essa linhagem. Isso pode ser um nome de usuário Databricks , um ID de entidade de serviço Databricks , um nome de grupo Databricks , “System-User” ou `NULL` se as informações do usuário não puderem ser capturadas.	`crampton.rods@email.com`
`event_time`	carimbo de data/hora	A data e hora em que a linhagem foi gerada. As informações de fuso horário são registradas no final do valor com `+00:00` representando UTC.	`2025-04-20T19:47:21.194+00:00`
`event_date`	Data	A data em que a linhagem foi gerada. Essa é uma coluna particionada.	`2025-04-20`
`record_id`	string	O ID exclusivo do registro de linhagem. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`3c5c8eed-87bb-3aa6-8a86-80d00d48299e`
`event_id`	string	O ID exclusivo de um evento de linhagem única. Várias linhas podem compartilhar o mesmo `event_id` se forem geradas pelo mesmo evento. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`ca123ff3-f3f8-332b-a832-0154a6327353`
`statement_id`	string	O ID exclusivo de uma instrução de consulta que gerou o evento de linhagem. Esse é um key externo para join com a tabela do sistema de história de consulta. Esse valor só é definido quando a consulta é executada a partir de um SQL warehouse.	`1234526f-a6ac-475c-8601-e8637f8ee039`
`entity_metadata`	struct	Metadados sobre a entidade responsável pelo evento de linhagem.	Veja os metadados da entidade
`direct_access`	boolean	Indica se a origem é referenciada diretamente pelo destino da consulta. Quando `true`, a origem está diretamente conectada ao destino da consulta. Quando `false`, a fonte é uma dependência intermediária descoberta através da expansão view . Por exemplo, se uma consulta lê de uma view, o registro de linhagem para a tabela base subjacente da view é registrado com `direct_access = false`.	`true`

Nome da coluna	Tipo de dados	Descrição	Exemplo
`account_id`	string	A ID da conta da Databricks.	`7af234db-66d7-4db3-bbf0-956098224879`
`metastore_id`	string	A ID do metastore do Unity Catalog.	`5a31ba44-bbf4-4174-bf33-e1fa078e6765`
`workspace_id`	string	A ID do workspace	`123456789012345`
`entity_type`	string	O tipo de entidade associada ao registro de linhagem, se houver. O valor é `NOTEBOOK`, `JOB`, `PIPELINE`, `DASHBOARD_V3`, `DBSQL_DASHBOARD` (obsoleto), `DBSQL_QUERY` ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`JOB`
`entity_id`	string	O ID da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`417306252667357`
`entity_run_id`	string	A ID de execução exclusiva da entidade associada ao registro de linhagem, ou NULL. Observação: consulte a coluna `entity_metadata` para obter informações sobre todas as entidades envolvidas no registro da linhagem.	`688612062233399`
`source_table_full_name`	string	Nome em três partes para identificar a tabela de origem.	`catalog.schema.table`
`source_table_catalog`	string	O catálogo da tabela de origem.	`catalog`
`source_table_schema`	string	O esquema da tabela de origem.	`schema`
`source_table_name`	string	O nome da tabela de origem.	`table`
`source_path`	string	Localização no armazenamento em nuvem da tabela de origem ou o caminho, se ela estiver lendo diretamente do armazenamento em nuvem.	`gs://mybucket/table1`
`source_type`	string	O tipo da fonte. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`source_column_name`	string	O nome da coluna de origem.	`date`
`target_table_full_name`	string	Nome em três partes para identificar a tabela de destino.	`catalog.schema.table`
`target_table_catalog`	string	O catálogo da tabela de destino.	`catalog`
`target_table_schema`	string	O esquema da tabela de destino.	`schema`
`target_table_name`	string	O nome da tabela de destino.	`table`
`target_path`	string	Localização no armazenamento em nuvem da tabela de destino.	`gs://mybucket/table1`
`target_type`	string	O tipo do alvo. O valor é `TABLE`, `PATH`, `VIEW`, `MATERIALIZED_VIEW`, `METRIC_VIEW` ou `STREAMING_TABLE`.	`TABLE`
`target_column_name`	string	O nome da coluna de destino.	`date`
`created_by`	string	O usuário que gerou essa linhagem. Isso pode ser um nome de usuário Databricks , um ID de entidade de serviço Databricks , um nome de grupo Databricks , “System-User” ou `NULL` se as informações do usuário não puderem ser capturadas.	`crampton.rods@email.com`
`event_time`	carimbo de data/hora	A data e hora em que a linhagem foi gerada. As informações de fuso horário são registradas no final do valor com `+00:00` representando UTC.	`2025-04-20T19:47:21.194+00:00`
`event_date`	Data	A data em que a linhagem foi gerada. Essa é uma coluna particionada.	`2025-04-20`
`record_id`	string	O ID exclusivo do registro de linhagem. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`3c5c8eed-87bb-3aa6-8a86-80d00d48299e`
`event_id`	string	O ID exclusivo de um evento de linhagem única. Várias linhas podem compartilhar o mesmo `event_id` se forem geradas pelo mesmo evento. Esse valor é gerado automaticamente e não pode ser associado a nenhuma tabela.	`ca123ff3-f3f8-332b-a832-0154a6327353`
`statement_id`	string	O ID exclusivo de uma instrução de consulta que gerou o evento de linhagem. Esse é um key externo para join com a tabela do sistema de história de consulta. Esse valor só é definido quando a consulta é executada a partir de um SQL warehouse.	`1234526f-a6ac-475c-8601-e8637f8ee039`
`entity_metadata`	struct	Metadados sobre a entidade responsável pelo evento de linhagem.	Veja os metadados da entidade
`direct_access`	boolean	Indica se a origem é referenciada diretamente pelo destino da consulta. Quando `true`, a origem está diretamente conectada ao destino da consulta. Quando `false`, a fonte é uma dependência intermediária descoberta através da expansão view . Por exemplo, se uma consulta lê de uma view, o registro de linhagem para a tabela base subjacente da view é registrado com `direct_access = false`.	`true`

Lendo tabelas do sistema de linhagem

Para determinar se o evento foi uma leitura ou uma gravação, o senhor pode view o tipo de origem e o tipo de destino.
- Somente leitura: o tipo de origem não é nulo, mas o tipo de destino é nulo.
- Somente gravação: o tipo de destino não é nulo, mas o tipo de origem é nulo.
- Leitura e gravação: o tipo de origem e o tipo de destino não são nulos.

Referência de metadados da entidade

A estrutura entity_metadata tem o seguinte esquema:

JSON
job_info:
  job_id: "string"
  job_run_id: "string"
dashboard_id: "string"
legacy_dashboard_id: "string"
notebook_id: "string"
sql_query_id: "string"
dlt_pipeline_info:
  dlt_pipeline_id: "string"
  dlt_update_id: "string"
genie_space_id: "string"
alert_id: "string"

O Databricks registra eventos de linhagem de LakeFlow Pipelines, Notebooks, Jobs, queries do Databricks SQL, dashboards, Agentes Genie e alertas. Eventos de outras entidades não têm suporte.

Vários valores podem ser preenchidos dependendo do tipo de evento. Por exemplo, um trabalho executando uma tarefa de Notebook preencheria os sites job_info e notebook_id.

Se todos os valores em entity_metadata forem null, isso significa que nenhuma entidade da Databricks esteve envolvida no evento. Por exemplo, pode ser o resultado de uma consulta JDBC ou de um usuário que clica em Sample Data tab na UI Databricks.

Exemplo de tabela de sistema de linhagem

Como exemplo de como a linhagem é registrada nas tabelas do sistema, aqui está um exemplo de consulta seguida pelos registros de linhagem que a consulta cria:

SQL
CREATE OR REPLACE TABLE car_features
AS SELECT *,  in1+in2 as premium_feature_set
FROM car_features_exterior
JOIN car_features_interior
USING(id, model);

O registro em system.access.table_lineage ficaria assim:

`entity_type`	`entity_id`	`source_table_name`	`target_table_name`	`created_by`	`event_time`
`NOTEBOOK`	`27080565267`	`car_features_exterior`	`car_features`	`crampton@email.com`	`2023-01-25T16:19:58.908+0000`
`NOTEBOOK`	`27080565267`	`car_features_interior`	`car_features`	`crampton@email.com`	`2023-01-25T16:19:58.908+0000`

`entity_type`	`entity_id`	`source_table_name`	`target_table_name`	`created_by`	`event_time`
`NOTEBOOK`	`27080565267`	`car_features_exterior`	`car_features`	`crampton@email.com`	`2023-01-25T16:19:58.908+0000`
`NOTEBOOK`	`27080565267`	`car_features_interior`	`car_features`	`crampton@email.com`	`2023-01-25T16:19:58.908+0000`

O registro em system.access.column_lineage ficaria assim:

`entity_type`	`entity_id`	`source_table_name`	`target_table_name`	`source_column_name`	`target_column_name`	`event_time`
`NOTEBOOK`	`27080565267`	`car_features_interior`	`car_features`	`in1`	`premium_feature_set`	`2023-01-25T16:19:58.908+0000`
`NOTEBOOK`	`27080565267`	`car_features_interior`	`car_features`	`in2`	`premium_feature_set`	`2023-01-25T16:19:58.908+0000`

`entity_type`	`entity_id`	`source_table_name`	`target_table_name`	`source_column_name`	`target_column_name`	`event_time`
`NOTEBOOK`	`27080565267`	`car_features_interior`	`car_features`	`in1`	`premium_feature_set`	`2023-01-25T16:19:58.908+0000`
`NOTEBOOK`	`27080565267`	`car_features_interior`	`car_features`	`in2`	`premium_feature_set`	`2023-01-25T16:19:58.908+0000`

nota

Nem todas as colunas de linhagem são mostradas no exemplo acima. Para obter o esquema completo, consulte o esquema de linhagem acima.

Solução de problemas de consultas de tabelas externas

Quando você faz referência a uma tabela externa usando seu caminho de armazenamento em nuvem, o registro de linhagem associado inclui apenas o nome do caminho e não o nome da tabela. Como exemplo, o registro de linhagem dessa consulta incluiria o nome do caminho e não o nome da tabela:

SQL
SELECT * FROM delta.`gcp://mybucket/table1`;

Se você estiver tentando consultar registros de linhagem para uma tabela externa referenciada por caminho, deverá filtrar a consulta usando source_path ou target_path em vez de source_table_full_name ou target_table_full_name. Por exemplo, a consulta a seguir extrai todos os registros de linhagem para uma tabela externa:

SQL
SELECT *
FROM system.access.table_lineage
WHERE
  source_path = "gs://mybucket/table1" OR
  target_path = "gs://mybucket/table1";

Recupere registros de linhagem com base no nome da tabela externa

Se não quiser recuperar manualmente o caminho do armazenamento em nuvem para encontrar a linhagem, o senhor pode usar a seguinte função para obter o nome da tabela de uso de dados da linhagem. Você também pode substituir system.access.table_lineage por system.access.column_lineage na função se quiser consultar a linhagem da coluna.

Python
def getLineageForTable(table_name):
  table_path = spark.sql(f"describe detail {table_name}").select("location").head()[0]

  df = spark.read.table("system.access.table_lineage")
  return df.where(
    (df.source_table_full_name == table_name)
    | (df.target_table_full_name == table_name)
    | (df.source_path == table_path)
    | (df.target_path == table_path)
  )

Em seguida, use o comando a seguir para chamar a função e exibir os registros de linhagem da tabela externa:

Python
display(getLineageForTable("table_name"))

Retenção de dados​

Tabela tabela de linhagem​

Esquema de linhagem de tabelas​

Tabela de linhagem de colunas​

Esquema de linhagem de colunas​

Lendo tabelas do sistema de linhagem​

Referência de metadados da entidade​

Exemplo de tabela de sistema de linhagem​

Solução de problemas de consultas de tabelas externas​

Recupere registros de linhagem com base no nome da tabela externa​