Pular para o conteúdo principal

Criar e trabalhar com tabelas de saída no Databricks Clean Rooms

Este artigo apresenta as tabelas de saída, que são tabelas temporárias somente de leitura geradas por uma execução do Notebook e compartilhadas com o metastore Unity Catalog do executor do Notebook. Este artigo descreve como usar um Notebook para criar tabelas de saída e como os colaboradores podem ler essas tabelas de saída em seu metastore Unity Catalog.

Visão geral das tabelas de saída

As tabelas de saída permitem salvar temporariamente a saída do Notebook que está sendo executado em uma sala limpa em um catálogo de saída no metastore Unity Catalog, onde é possível disponibilizar os dados para os membros da equipe que não têm a capacidade de executar o Notebook por conta própria. O senhor também pode usar o Databricks Job para executar o Notebook e realizar tarefas nas tabelas de saída. Combinadas com o tipo de tarefa Clean Room Notebook e o suporte a valores de tarefa, as tabelas de saída permitem que o senhor crie fluxos de trabalho complexos que dependem do Clean Room Notebook.

As tabelas de saída são somente para leitura.

Somente o responsável específico (usuário, grupo ou entidade de serviço) que executou o Notebook tem default acesso de leitura à tabela de saída. Não há acesso de gravação. Um administrador de metastore pode conceder acesso de leitura a outros diretores em seu Databricks account, usando privilégios padrão do Unity Catalog.

As tabelas de saída são armazenadas por 30 dias no local de armazenamento default da sala limpa central e compartilhadas com o metastore do colaborador usando Delta Sharing. Se quiser manter uma tabela de saída por mais de 30 dias, você deve copiá-la para o armazenamento local.

Cada execução do Notebook cria um novo esquema no catálogo de saída. A nova execução não pode anexar uma tabela de saída existente.

important

As tabelas de saída são compatíveis apenas quando a sala limpa central está hospedada no AWS ou no Azure. No entanto, os colaboradores em Databricks em todas as três nuvens - AWS, Azure e Google Cloud - podem compartilhar o Notebook que cria tabelas de saída e podem ler as tabelas de saída que são geradas quando executam o Notebook compartilhado. Os colaboradores do Google Cloud precisam participar da prévia privada do Clean Rooms.

Crie uma tabela de saída

Para criar uma tabela de saída, use os parâmetros cr_output_catalog e cr_output_schema no namespace da tabela de três partes. Cada execução do Notebook produz um novo esquema.

No exemplo a seguir, a célula Notebook cria uma tabela de saída chamada overlapping_users no catálogo de saída do colaborador que lista os usuários cujo endereço email aparece nas tabelas collaborator.advertiser.profiles e creator.publisher.profiles.

SQL
CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email

Leia uma tabela de saída

As tabelas de saída aparecem em um catálogo compartilhado no metastore do executor do Notebook. No painel Catálogo do Catalog Explorer, eles aparecem na lista de catálogos compartilhados .

Ler uma tabela de saída é como ler qualquer outra tabela no Unity Catalog. Você deve ter SELECT na tabela, USE CATALOG no catálogo de saída compartilhado e USE SCHEMA no esquema gerado automaticamente. O usuário que executou o Notebook que criou a tabela tem essas permissões pelo site default.

nota

A exclusão de uma sala limpa remove todas as tabelas de saída e o histórico de dados do catálogo de saída.

Antes de começar

Esta seção descreve os requisitos de nuvem, configuração e compute para a leitura de tabelas de saída.

Requisitos de nuvem

Embora a sala limpa central deva estar em AWS para dar suporte às tabelas de saída, o espaço de trabalho do colaborador pode estar em qualquer uma das três nuvens: AWS, Azure, ou Google Cloud. Os colaboradores do Google Cloud precisam participar da prévia privada do Clean Rooms.

Requisito de catálogo de saída compartilhado

Antes de ler as tabelas de saída, o usuário deve criar o catálogo que as contém. Você só precisa fazer isso uma vez por sala limpa. O proprietário da sala limpa tem permissão para ler e gerenciar o catálogo de saída pelo site default.

Permissões necessárias : EXECUTE_CLEAN_ROOM_TASK

  1. Em seu site Databricks workspace, clique em Ícone de catálogo Catalog .
  2. Na página de acesso rápido , clique no botão Clean Rooms > .
  3. Selecione a sala limpa na lista.
  4. No painel direito, em Saída , clique em Criar catálogo .
  5. Digite um nome de catálogo de saída ou aceite o endereço default, que é <clean-room-name>_output.

O catálogo de saída aparece na lista de catálogos compartilhados no painel Catálogo do Catalog Explorer. Cada sala limpa da qual você participa pode ter um catálogo de resultados compartilhado em sua metastore.

requisitos de computação

As consultas em tabelas de saída exigem serverless compute. Consulte Conectar-se a serverless compute .

Permissões necessárias para ler uma tabela de saída

O usuário que executou o Notebook que criou a tabela de saída e o proprietário da sala limpa têm permissão para ler e gerenciar a tabela de saída pelo site default. Todos os outros usuários devem ter as seguintes permissões concedidas a eles:

  • SELECT na mesa
  • USE CATALOG no catálogo de saída
  • USE SCHEMA no esquema de saída

execução the Notebook

Para gerar tabelas de saída compartilhadas em seu catálogo de saída, um usuário com acesso à sala limpa deve executar o Notebook. Veja o Notebook de execução em salas limpas. Cada execução do Notebook cria um novo esquema e uma nova tabela de saída.

dica

O senhor pode usar o Databricks Job para executar o Notebook e realizar tarefas nas tabelas de saída, permitindo um fluxo de trabalho complexo. Consulte Use Databricks Workflows para executar o Clean Room Notebook.

Localizar e view uma tabela de saída

O usuário que executa o Notebook que cria a tabela de saída pode encontrar um link para a tabela de saída nas páginas de histórico de execução e detalhes de execução do Notebook na UI do Clean Rooms . Em ambos os casos, o link está no campo Esquema de saída . Ver Monitor clean room Notebook execução.

execução história:

Link do esquema de saída no histórico de execução

detalhes da execução:

Link do esquema de saída nos detalhes da execução

Você também pode encontrar o catálogo de saída na lista de catálogos compartilhados no painel Catálogo do Catalog Explorer.

Limitações

Além dos requisitos listados em Visão geral das tabelas de saída e Antes de começar, as tabelas de saída têm as seguintes limitações:

  • As tabelas de saída só são compatíveis quando a sala limpa central está hospedada no AWS ou no Azure e quando a sala limpa foi criada depois que o recurso de tabela de saída foi lançado.
  • Somente tabelas são suportadas. Volumes e visualizações, por exemplo, não são.
  • O senhor pode criar até 100 tabelas de saída por Notebook.