Traga sua própria linhagem de dados
Visualização
Esse recurso está em Public Preview.
Esta página descreve como atualizar a linhagem de dados para incluir ativos externos e fluxos de trabalho que são executados fora do site Databricks.
O Unity Catalog captura automaticamente a linhagem de dados em tempo de execução nas consultas que são executadas no Databricks. No entanto, o senhor pode ter cargas de trabalho que são executadas fora do site Databricks (por exemplo, first mile ETL ou last mile BI). Unity Catalog permite que o senhor adicione metadados de linhagem externa para aumentar a Databricks linhagem de dados que ele captura automaticamente, fornecendo uma linhagem de ponta a ponta view em Unity Catalog. Isso é útil quando o senhor deseja capturar a origem dos dados (por exemplo, Salesforce ou MySQL) antes de serem ingeridos no Unity Catalog ou quando os dados estão sendo consumidos fora do Unity Catalog (por exemplo, Tableau ou PowerBI).
O gráfico de linhagem a seguir mostra uma tabela PostgreSQL externa que foi ingerida em Databricks como uma tabela gerenciar Unity Catalog, com três colunas transformadas em uma coluna release_date
e, em seguida, consultada usando o PowerBI.
Para obter informações gerais sobre linhagem de dados em Databricks, consulte visualizar linhagem de dados usando Unity Catalog.
Requisitos
Para adicionar metadados de linhagem externa no Unity Catalog, o senhor deve ter os seguintes privilégios, dependendo da tarefa específica:
- Para criar um objeto seguro de metadados externos no Unity Catalog, o senhor deve ter o privilégio
CREATE EXTERNAL METADATA
no metastore. - Para especificar relacionamentos de linhagem entre um objeto de metadados externo e qualquer outro objeto do Unity Catalog, o senhor deve ter o privilégio
MODIFY
no objeto de metadados externo. - Para especificar um relacionamento de linhagem downstream para um objeto do Unity Catalog, o senhor deve ter privilégios de leitura no objeto (por exemplo,
SELECT
em uma tabela). - Para especificar uma relação de linhagem upstream para um objeto do Unity Catalog, o senhor deve ter privilégios de gravação no objeto (por exemplo,
MODIFY
em uma tabela).
Adicionar metadados de linhagem externa
Para adicionar metadados de linhagem externa:
-
Crie um objeto securizável de metadados externos no Unity Catalog.
Esse objeto representa uma entidade em um sistema externo, como um painel no Tableau.
-
Configure um relacionamento de linhagem entre o objeto de metadados externo e outro objeto do Unity Catalog, como uma tabela, um modelo, um caminho ou outro objeto de metadados externo.
Quando o senhor tiver criado relacionamentos de linhagem, o objeto de metadados externos aparecerá no gráfico de linhagem view.
O senhor pode criar objetos de metadados externos e configurar relacionamentos de linhagem usando a UI do Catalog Explorer ou uma API REST.
Criar um objeto de metadados externo
Para usar o Catalog Explorer para criar um objeto de metadados externo:
-
Em seu site Databricks workspace, clique em
Catalog .
-
Na página de acesso rápido , clique no botão External data (Dados externos ) >, vá para External Metadata (Metadados externos ) tab e clique em Create external metadata (Criar metadados externos ).
-
Especifique os detalhes dos metadados.
Obrigatório:
- Nome : Digite um nome legível que ajudará os usuários do Databricks a entender o que estão vendo na linhagem. Você não pode usar espaços.
- Tipo de sistema : Selecione na lista de dados externos comuns e sistemas de BI. Se você não encontrar o seu, selecione Personalizado .
- Tipo de entidade : insira o tipo de objeto, como " table " ou " dashboard. "
Opcional:
- URL : Digite o URL do objeto se quiser que os visualizadores do gráfico de linhagem possam clicar no ativo externo (como um painel do Tableau, por exemplo).
- Descrição
Avançado:
- Columns (Colunas ): Se o senhor quiser fazer o mapeamento em nível de coluna desse objeto externo para outro objeto do Unity Catalog, insira os nomes das colunas. Selecione UI para inseri-las uma de cada vez ou Entrada de texto para inserir uma lista delimitada por vírgula em uma única caixa de texto.
- Propriedades : Se houver outras propriedades que o senhor deseja rastrear na linhagem, insira-as como JSON par key-value. O senhor pode usar a UI para inserir cada par key-valor ou inserir um objeto completo. JSON objeto completo.
-
Clique em Criar .
Uma caixa de diálogo oferece ao senhor a opção de view o objeto de metadados externo ou de criar relacionamentos de linhagem para o objeto.
Crie relacionamentos de linhagem
Para adicionar relacionamentos entre um objeto de metadados externo e outros objetos do Unity Catalog:
-
Siga o prompt mencionado acima ou localize o objeto de metadados externos existente no Catalog Explorer:
- Clique em
Catálogo
- Clique no botão Dados externos >
- Vá para External Metadata (Metadados externos ) tab e selecione o objeto de metadados externos.
- Clique em
-
Clique em Criar relacionamento de linhagem .
-
Selecione se você deseja criar um relacionamento upstream ou downstream.
-
Insira o tipo de objeto com o qual você deseja criar a relação:
- Tabela : Selecione a tabela usando a caixa de diálogo de pesquisa.
- Modelo : selecione o modelo usando a caixa de diálogo de pesquisa e, em seguida, selecione a versão do modelo.
- Caminho : para volumes ou locais externos, insira o caminho.
- Metadados externos : selecione o objeto de metadados externos no menu suspenso.
-
(Opcional) Clique em Avançado para adicionar:
- Mapeamentos de colunas entre o objeto de metadados externo e o objeto de origem ou de destino.
- Outros metadados como JSON par key-value. Por exemplo, o senhor pode usá-las para inserir o texto da consulta que criou uma tabela a partir do objeto de metadados externo ou da anotação que explica o fluxo de trabalho externo que gerou o relacionamento.
-
Clique em Criar .
Agora, o senhor pode ver o relacionamento de linhagem externa na página de linhagem tab dos objetos relacionados.
Perguntas frequentes sobre linhagem externa
A Databricks fornece algum conector ou rastreador para trazer metadados de linhagem externa automaticamente?
Não, a linhagem externa não é capturada automaticamente. O senhor deve usar a API REST ou o Catalog Explorer para adicionar linhagem externa.
A linhagem externa que eu adiciono está registrada na tabela do sistema de linhagem?
Não, a linhagem externa que o senhor adiciona usando esse recurso não pode ser consultada na tabela do sistema de linhagem. O senhor deve chamar a API REST para obter linhagem externa de forma programática.
Posso especificar uma relação de linhagem entre duas tabelas registradas no Unity Catalog usando esse recurso?
Para especificar um relacionamento de linhagem entre duas tabelas que estão registradas no Unity Catalog, o senhor deve criar um objeto de metadados externo que fique entre elas. O senhor pode especificar uma tabela como upstream para o objeto de metadados externo e a outra como downstream para que elas sejam exibidas como conectadas no gráfico de linhagem.
Posso usar esse recurso para especificar vários níveis de relacionamentos de linhagem externa (por exemplo, anotar dados que passam por vários sistemas antes de entrar no Databricks)?
Sim, você pode especificar vários níveis de linhagem externa criando vários objetos externos que podem ser protegidos por metadados e criando relacionamentos de linhagem externa com cada um deles.
Posso adicionar linhagem externa em nível de coluna usando esse recurso?
Sim, você pode adicionar uma linhagem externa em nível de coluna. O senhor deve especificar os nomes das colunas ao criar o objeto securizável de metadados externos e especificar os mapeamentos de origem e coluna de destino ao configurar o relacionamento de linhagem externa.