O que é o protocolo OpenSharing Databricks-to-Databricks?
Esta página fornece uma visão geral de como usar o Databricks-to-Databricks OpenSharing para compartilhar dados com segurança com qualquer usuário Databricks, independentemente da conta ou do provedor de nuvem, desde que esse usuário tenha acesso a um workspace habilitado para Unity Catalog.
Quem deve usar o Databricks-to-Databricks OpenSharing?
Há três maneiras de compartilhar dados com o OpenSharing.
-
O protocolo de compartilhamento Databricks-to-Databricks , abordado neste artigo, permite que o senhor compartilhe dados do seu Unity Catalog habilitado workspace com usuários que também tenham acesso a um Unity Catalog habilitado Databricks workspace.
Essa abordagem utiliza o servidor OpenSharing integrado ao Databricks e oferece suporte ao compartilhamento de notebooks, governança de dados do Unity Catalog, auditoria e acompanhamento de uso tanto para provedores quanto para destinatários. A integração com o Unity Catalog simplifica a configuração e a governança tanto para fornecedores quanto para destinatários, além de melhorar o desempenho.
-
O protocolo de compartilhamento Databricks-para-Open permite compartilhar dados que você gerencia em um workspace do Databricks habilitado para Unity Catalog com usuários em qualquer plataforma de computação.
Consulte O que é o protocolo de compartilhamento OpenSharing Databricks-to-Open?.
-
Uma implementação gerenciada pelo cliente do servidor OpenSharing de código aberto , que permite o compartilhamento de qualquer plataforma para qualquer plataforma, seja ele o Databricks ou não.
Explorar o projeto de código aberto.
Para uma introdução ao OpenSharing e mais informações sobre essas três abordagens, consulte O que é OpenSharing?.
Databricks-to-Databricks OpenSharing fluxo de trabalho
Esta seção fornece uma visão geral de alto nível do fluxo de trabalho de compartilhamento Databricks-para-Databricks, com links para documentação detalhada para cada passo.
No modelo Databricks-to-Databricks OpenSharing:
-
Um destinatário de dados fornece a um provedor de dados o identificador de compartilhamento exclusivo para o metastore Databricks Unity Catalog que está anexado ao Databricks workspace que o destinatário (que representa um usuário ou grupo de usuários) usará para acessar os dados que o provedor de dados está compartilhando.
Para obter detalhes, consulte Etapa 1: Solicitar o identificador de compartilhamento do destinatário.
-
O provedor de dados cria um compartilhamento no metastore do Unity Catalog do provedor. Esse objeto nomeado contém uma coleção de tabelas, visualizações, volumes e Notebook registrados no metastore.
Para detalhes, consulte Criar compartilhamentos para OpenSharing.
-
O provedor de dados cria um objeto destinatário no metastore do Unity Catalog do provedor. Esse objeto nomeado representa o usuário ou grupo de usuários que acessará os dados incluídos no compartilhamento, juntamente com o identificador de compartilhamento do metastore Unity Catalog que está anexado ao workspace que o usuário ou grupo de usuários usará para acessar o compartilhamento. O identificador de compartilhamento é o identificador key que habilita a conexão segura.
Para obter detalhes, consulte Etapa 2: Criar o destinatário.
-
O provedor de dados concede ao destinatário acesso ao compartilhamento.
Para detalhes, consulte Gerenciar acesso a compartilhamentos de dados OpenSharing (para provedores).
-
O compartilhamento fica disponível no workspace Databricks do destinatário, e os destinatários podem acessá-lo usando o Catalog Explorer, a CLI Databricks ou um comando SQL em um Notebook Databricks ou no editor de consultas Databricks SQL .
Para acessar as tabelas, as views, os volumes e os Notebooks em um compartilhamento, um administrador de metastore ou usuário privilegiado deve criar um catálogo a partir do compartilhamento. Então, esse usuário ou outro usuário que tenha o privilégio apropriado pode conceder acesso ao catálogo e aos objetos nele contidos a outros usuários. A concessão de permissões em catálogos compartilhados e ativos de dados funciona da mesma forma que para quaisquer outros ativos registrados no Unity Catalog, com a importante distinção de que os usuários podem receber apenas acesso de leitura em objetos em catálogos que são criados a partir de compartilhamentos OpenSharing.
O Shared Notebook fica no nível do catálogo e qualquer usuário com o privilégio
USE CATALOGno catálogo pode acessá-lo.
Melhorar o desempenho da leitura de tabelas com o compartilhamento de histórias
Databricks-to-Databricks O compartilhamento de tabelas pode melhorar o desempenho ao permitir o compartilhamento de histórias. O compartilhamento de história melhora o desempenho aproveitando as credenciais de segurança temporárias do seu armazenamento em nuvem, com escopo reduzido para o diretório raiz da tabela Delta compartilhada do provedor, resultando em um desempenho comparável ao acesso direto às tabelas de origem.
- Para novos compartilhamentos de tabela, especifique
WITH HISTORYao criar o compartilhamento de tabela. Consulte Adicionar tabelas a um compartilhamento. Quando o senhor compartilha uma tabela usando compute em Databricks Runtime 16.2 e acima,WITH HISTORYé o default. - Para compartilhamentos de tabelas existentes, o senhor deve alterar o compartilhamento para compartilhar o histórico da tabela. Consulte Atualizar compartilhamentos. Quando o senhor compartilha uma tabela usando compute em Databricks Runtime 16.2 e acima,
WITH HISTORYé o default.
Quando o senhor compartilha um esquema inteiro, todas as tabelas do esquema são compartilhadas com a história pelo site default.
As tabelas com particionamento ativado não recebem os benefícios de desempenho do histórico de compartilhamento. Consulte Especificar partições de tabela para compartilhar
Para obter informações sobre os requisitos de elegibilidade para tokens cloud e considerações sobre privacidade de dados, consulte Elegibilidade para tokens em nuvem.
Matriz de suporte do Databricks-to-Databricks OpenSharing para ambientes cloud
O compartilhamento aberto Databricks-to-Databricks oferece suporte ao compartilhamento dentro do mesmo tipo de ambiente. Nuvens comerciais incluem workspaces com controles de compliance habilitados, como o FedRAMP Moderate. O compartilhamento com ambientes do Azure Government não é compatível.
Visualização
O compartilhamento entre domínios regulatórios está em Pré-lançamento público restrito. Entre em contato com sua equipe de conta da Databricks para começar.
Nesta matriz, cada linha representa o ambiente do provedor (o metastore de compartilhamento de dados), e cada coluna representa o ambiente do destinatário (o metastore que recebe dados compartilhados).
Pro | Destinatário: nuvens comerciais | Beneficiário: AWS GovCloud | Beneficiário: AWS GovCloud DoD | Beneficiário: Azure China |
|---|---|---|---|---|
Nuvens comerciais | ✓ | ✓ | ✓ | ✓ |
AWS GovCloud | ✓ | ✓ | ✓ | |
AWS GovCloud DoD | ✓ | ✓ | ✓ | |
Azure China | ✓ | ✓ |
Limitações
Aplicam-se as seguintes limitações para compartilhamento entre domínios regulatórios.
-
Tokens de cloud são usados a menos que um compartilhamento entre ou saia de AWS GovCloud ou AWS GovCloud DoD. Nesses casos a seguir, tabelas são compartilhadas utilizando URLs pré-assinados em vez disso:
- Uma cloud comercial compartilha com ou recebe da AWS GovCloud ou da AWS GovCloud DoD.
- AWS GovCloud e AWS GovCloud DoD compartilham entre si.
-
Workspaces comerciais do GCP não podem compartilhar com ou receber compartilhamentos da AWS GovCloud DoD.