O que é a Databricks Clean Rooms?
Este artigo apresenta o Clean Rooms, um recurso do site Databricks que usa os sites Delta Sharing e serverless compute para oferecer um ambiente seguro e que protege a privacidade, no qual várias partes podem trabalhar juntas em dados corporativos confidenciais sem acesso direto aos dados umas das outras.
Requisitos
Para ser elegível para usar salas limpas, você deve ter:
- Um account que está habilitado para serverless compute. Consulte Ativar serverless compute .
- Um workspace que está habilitado para Unity Catalog. Consulte Ativar um workspace para Unity Catalog.
- Delta Sharing ativado para seu metastore do Unity Catalog. Consulte Ativar o Delta Sharing em um metastore.
Como funciona o Clean Rooms?
Ao criar uma sala limpa, você cria o seguinte:
- Um objeto de sala limpa seguro em seu metastore do Unity Catalog.
- A sala limpa "central", que é um ambiente efêmero isolado, pode ser gerenciada pelo site Databricks.
- Um objeto de sala limpa seguro no metastore do Unity Catalog do seu colaborador.
As tabelas, os volumes (dados não tabulares), a visualização e o Notebook que um dos colaboradores compartilha na sala limpa são compartilhados apenas com a sala limpa central, usando Delta Sharing.
Os colaboradores não podem ver os dados nas tabelas, visualizações ou volumes de outros colaboradores, mas podem ver os nomes e tipos de colunas e podem executar o código aprovado do Notebook que opera sobre os dados ativos. A execução do código do Notebook na sala limpa central. O Notebook também pode gerar tabelas de saída que permitem que o colaborador salve temporariamente a saída somente leitura em seu metastore Unity Catalog para que possa trabalhar com ela em seu espaço de trabalho.
Como as salas limpas garantem um ambiente de não confiança?
O modelo do Databricks Clean Rooms é "sem confiança". Todos os colaboradores em uma sala limpa não confiável têm privilégios iguais, incluindo o criador da sala limpa. O Clean Rooms foi projetado para evitar a execução de códigos não autorizados e o compartilhamento não autorizado de dados. Por exemplo, todos os colaboradores devem aprovar um Notebook antes que ele possa ser executado. Essa confiança é imposta implicitamente, impedindo que um colaborador execute qualquer Notebook que ele mesmo tenha criado: o senhor só pode executar um Notebook criado pelo outro colaborador.
Salvaguardas ou restrições adicionais
As seguintes salvaguardas estão em vigor, além do processo implícito de aprovação do Notebook mencionado acima:
-
Depois que uma sala limpa é criada, ela é trancada para evitar que novos colaboradores entrem na sala limpa.
-
Se algum colaborador excluir a sala limpa, a sala limpa central será anulada e nenhuma tarefa de sala limpa poderá ser executada por nenhum usuário.
-
Cada sala limpa é limitada a dois colaboradores.
-
Você não pode renomear a sala limpa.
O nome da sala limpa deve ser exclusivo na metastore de cada colaborador, para que todos possam se referir à mesma sala limpa de forma inequívoca.
-
Os comentários sobre a sala limpa e segura no site workspace de cada colaborador não são propagados para outros colaboradores.
O que é compartilhado com outros colaboradores?
- Nome da sala limpa.
- Nuvem e região da sala limpa central.
- O nome da sua organização (que pode ser qualquer nome que você escolher).
- Seu identificador de compartilhamento de sala limpa (ID de metastore global + ID de workspace + endereço do usuário email ).
- Aliases de tabelas, visualizações ou volumes compartilhados.
- Metadados da coluna (nome ou alias e tipo da coluna).
- Notebook (somente leitura).
- Tabelas de saída (somente leitura, temporárias).
- Mesa do sistema de eventos de sala limpa.
- execução história, inclusive:
- O nome do Notebook que está sendo executado
- Colaborador que executa o Notebook (não usuário).
- O estado da execução do Notebook.
- O horário de início da execução do Notebook.
O que é compartilhado com a sala limpa central?
-
Tudo o que está listado na seção anterior.
-
Tabelas, volumes, visualização e Notebook somente de leitura.
Tabelas, visualizações e volumes são registrados no metastore da sala limpa central com todos os aliases fornecidos. Os dados ativos são compartilhados durante todo o ciclo de vida da sala limpa.
Perguntas frequentes sobre salas limpas
A seguir estão as perguntas mais frequentes sobre salas limpas.
Como meus dados são gerenciados em uma sala limpa?
A sala central e limpa é gerenciada pelo site Databricks. Na sala limpa central:
- Nenhuma das partes tem privilégios de administrador.
- Somente os metadados são visíveis para todas as partes.
- Cada parte pode adicionar dados à sala limpa central.
- As salas limpas usam o Delta Sharing para compartilhar dados com segurança na sala limpa, mas não entre os participantes. Consulte O que é Delta Sharing?
Como meus dados são mantidos em sigilo?
Execução de salas limpas centrais em um plano isolado, Databricks-gerenciar serverless compute hospedado em uma região do provedor de nuvem que o criador da sala limpa escolher.
As salas limpas oferecem:
- Aprovação de código: O criador da sala limpa e os colaboradores podem compartilhar tabelas e volumes com a sala limpa central, mas só podem executar o upload do Notebook pela outra parte. Você pode revisar o código adicionado pela outra parte antes de aprová-lo. Se o usuário executar um Notebook adicionado por outra parte, estará implicitamente aprovando o código.
- Controle de versão: O Notebook de salas limpas tem controle de versão para garantir que todas as partes só possam executar o Notebook totalmente aprovado. Somente a versão mais recente de um Notebook pode ser executada. O senhor pode usar a tabela do sistema de salas limpas para ver qual versão do Notebook foi executada e monitorar as alterações feitas.
- Acesso restrito: Ao criar uma sala limpa, o senhor pode usar o controle de saída serverless para gerenciar as conexões de rede de saída. Se você restringir o acesso da sua sala limpa, o acesso ao armazenamento não autorizado será bloqueado. Consulte O que é o controle de saída serverless?
Para saber mais sobre segurança e o plano serverless compute , consulte a rede do plano compute sem servidor.
Como as ações são registradas?
As ações de sala limpa realizadas por você ou seus colaboradores são registradas na tabela do sistema de eventos de sala limpa. Esses registros incluem metadados detalhados sobre a ação específica tomada. Consulte a referência da tabela do sistema de eventos de sala limpa.
As ações da sala limpa também são registradas na auditoria do site account log sob o serviço clean-room
. Consulte a referência da tabela do sistema Audit log.
Como funciona o faturamento?
Para saber mais sobre os preços do Databricks Clean Rooms, consulte o link.
Limitações
Aplicam-se as seguintes limitações:
- Nenhum serviço credenciado Scala biblioteca incluído na versão Databricks Runtime exigida.
Se o senhor usar o Databricks-gerenciar default armazenamento para mesas adicionadas à sua sala limpa:
- O senhor pode criar, join, ou adicionar dados a um máximo de cinco salas limpas, com um limite de duas salas limpas em regiões não AWS.
- Você não pode usar partições de tabela.
As tabelas usam o armazenamento default se o senhor usou a configuração expressa para criar seu account.
recurso cotas
Databricks impõe cotas de recurso em todos os objetos seguros do Clean Room. Essas cotas são listadas em limites de recurso. Se o senhor espera exceder esses limites de recurso, entre em contato com a equipe Databricks account .
O senhor pode monitorar o uso da cota usando o recurso Unity Catalog quotas APIs. Consulte Monitorar o uso das cotas de recurso do Unity Catalog.