Criar e trabalhar com tabelas de saída no Databricks Clean Rooms
Prévia
Esse recurso está em Prévia Pública.
Este artigo apresenta as tabelas de saída, que são tabelas temporárias somente de leitura geradas por uma execução do Notebook e compartilhadas com o metastore Unity Catalog do executor do Notebook. Este artigo descreve como usar um Notebook para criar tabelas de saída e como os colaboradores podem ler essas tabelas de saída em seu metastore Unity Catalog.
Visão geral das tabelas de saída
As tabelas de saída permitem que o usuário salve temporariamente a saída do Notebook que está sendo executado em uma sala limpa em um catálogo de saída no metastore Unity Catalog, onde é possível disponibilizar os dados para os membros da equipe que não têm a capacidade de executar o Notebook por conta própria. O senhor também pode usar o Databricks Job para executar o Notebook e realizar tarefas nas tabelas de saída. Combinadas com o tipo de tarefa do Clean Room Notebook e o suporte a valores de tarefa, as tabelas de saída permitem que o senhor crie fluxos de trabalho complexos que dependem do Clean Room Notebook.
As tabelas de saída são somente para leitura.
Somente o responsável específico (usuário, grupo ou entidade de serviço) que executou o Notebook tem acesso de leitura default à tabela de saída. Não há acesso de gravação. Um administrador de metastore pode conceder acesso de leitura a outros diretores em seu Databricks account, usando privilégios padrão do Unity Catalog.
As tabelas de saída são armazenadas por 30 dias no local de armazenamento default da sala limpa central e compartilhadas com o metastore do colaborador usando Delta Sharing. Se quiser manter uma tabela de saída por mais de 30 dias, você deve copiá-la para o armazenamento local.
Cada execução do Notebook cria um novo esquema no catálogo de saída. A nova execução não pode anexar uma tabela de saída existente.
Importante
As tabelas de saída são compatíveis apenas quando a sala limpa central está hospedada no AWS. No entanto, os colaboradores em Databricks em todos os três clouds- AWS, Azure e Google Cloud - podem compartilhar o Notebook que cria tabelas de saída e podem ler as tabelas de saída que são geradas quando executam o Notebook compartilhado. Os colaboradores do Google Cloud devem ser participantes da visualização privada do Clean Rooms.
Crie uma tabela de saída
Para criar uma tabela de saída, use os parâmetros cr_output_catalog
e cr_output_schema
no namespace da tabela de três partes. Cada execução do Notebook produz um novo esquema.
No exemplo a seguir, a célula Notebook cria uma tabela de saída chamada overlapping_users
no catálogo de saída do colaborador que lista os usuários cujo endereço email aparece nas tabelas collaborator.advertiser.profiles
e creator.publisher.profiles
.
CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email
Leia uma tabela de saída
As tabelas de saída aparecem em um catálogo compartilhado no metastore do executor do Notebook. No painel Catálogo do Catalog Explorer, eles aparecem na lista de catálogos compartilhados.
Ler uma tabela de saída é como ler qualquer outra tabela no Unity Catalog. Você deve ter SELECT
na tabela, USE CATALOG
no catálogo de saída compartilhado e USE SCHEMA
no esquema gerado automaticamente. O usuário que executou o Notebook que criou a tabela tem essas permissões pelo site default.
Antes de começar
Esta seção descreve os requisitos de cloud, configuração e compute para a leitura de tabelas de saída.
Requisitos de nuvem
Embora a sala limpa central deva estar em AWS para dar suporte às tabelas de saída, o espaço de trabalho do colaborador pode estar em qualquer um dos três clouds: AWS, Azure, ou na nuvem do Google. Os colaboradores do Google Cloud devem ser participantes da visualização privada do Clean Rooms.
Requisitos de computação
As consultas em tabelas de saída exigem serverless compute. Consulte Conectar-se à computação sem servidor.
Permissões necessárias para ler uma tabela de saída
O usuário que executou o Notebook que criou a tabela de saída tem permissão para ler a tabela de saída pelo endereço default. Todos os outros usuários devem ter as seguintes permissões concedidas a eles:
SELECT
na mesaUSE CATALOG
no catálogo de saídaUSE SCHEMA
no esquema de saída
execução the Notebook
Para gerar tabelas de saída compartilhadas em seu catálogo de saída, um usuário com acesso à sala limpa deve executar o Notebook. Veja o Notebook de execução em salas limpas. Cada execução do Notebook cria um novo esquema e uma nova tabela de saída.
Dica
O senhor pode usar o Databricks Job para executar o Notebook e realizar tarefas nas tabelas de saída, permitindo um fluxo de trabalho complexo. Consulte Use Databricks Workflows para executar o Clean Room Notebook.
Localizar e visualizar uma tabela de saída
O usuário que executa o Notebook que cria a tabela de saída pode encontrar um link para a tabela de saída nas páginas de histórico de execução e detalhes de execução do Notebook na UI do Clean Rooms. Em ambos os casos, o link está no campo Esquema de saída. Ver Monitor clean room Notebook execução.
execução história:
detalhes da execução:
Você também pode encontrar o catálogo de saída na lista de catálogos compartilhados no painel Catálogo do Catalog Explorer.
Limitações
Além dos requisitos listados em Visão geral das tabelas de saída e Antes de começar, as tabelas de saída têm as seguintes limitações:
As tabelas de saída são compatíveis apenas quando a sala limpa central está hospedada no AWS e quando a sala limpa foi criada depois que o recurso de tabela de saída foi lançado.
Somente tabelas são suportadas. Volumes e visualizações, por exemplo, não são.
O senhor pode criar até 100 tabelas de saída por Notebook.