Pular para o conteúdo principal

O que é o protocolo OpenSharing Databricks-to-Databricks?

Esta página fornece uma visão geral de como usar o Databricks-to-Databricks OpenSharing para compartilhar dados com segurança com qualquer usuário Databricks, independentemente da conta ou do provedor de nuvem, desde que esse usuário tenha acesso a um workspace habilitado para Unity Catalog.

Quem deve usar o Databricks-to-Databricks OpenSharing?

Há três maneiras de compartilhar dados com o OpenSharing.

  1. O protocolo de compartilhamento Databricks-to-Databricks , abordado neste artigo, permite compartilhar dados do seu workspace habilitado para Unity Catalog com usuários que também têm acesso a um workspace do Databricks habilitado para Unity Catalog.

    Essa abordagem usa o servidor OpenSharing que é integrado ao Databricks e oferece suporte para compartilhamento de notebooks, governança de dados do Unity Catalog, auditoria e acompanhamento de uso para provedores e destinatários. A integração com o Unity Catalog simplifica a configuração e a governança para provedores e destinatários e melhora o desempenho.

  2. O protocolo de compartilhamento Databricks-para-Open permite compartilhar dados que você gerencia em um workspace do Databricks habilitado para Unity Catalog com usuários em qualquer plataforma de computação.

    Consulte O que é o protocolo de compartilhamento OpenSharing Databricks-to-Open?.

  3. Uma implementação gerenciada pelo cliente do servidor OpenSharing de código aberto , que permite o compartilhamento de qualquer plataforma para qualquer plataforma, seja ele o Databricks ou não.

    Explorar o projeto de código aberto.

Para uma introdução ao OpenSharing e mais informações sobre essas três abordagens, consulte O que é OpenSharing?.

Databricks-to-Databricks OpenSharing fluxo de trabalho

Esta seção fornece uma visão geral de alto nível do fluxo de trabalho de compartilhamento Databricks-para-Databricks, com links para documentação detalhada para cada passo.

No modelo Databricks-to-Databricks OpenSharing:

  1. Um *destinatário* de dados fornece a um *provedor* de dados o *identificador de compartilhamento* exclusivo para o metastore do Databricks Unity Catalog que está anexado ao workspace do Databricks que o destinatário (que representa um usuário ou grupo de usuários) usará para acessar os dados que o provedor de dados está compartilhando.

    Para detalhes, consulte o passo 1: Solicitar o identificador de compartilhamento do destinatário.

  2. O provedor de dados cria um compartilhamento no metastore do Unity Catalog do provedor. Este objeto nomeado contém uma coleção de tabelas, views, volumes e Notebooks registrados no metastore.

    Para detalhes, consulte Criar compartilhamentos para OpenSharing.

  3. O provedor de dados cria um objeto destinatário no metastore do Unity Catalog do provedor. Este objeto nomeado representa o usuário ou grupo de usuários que acessará os dados incluídos no compartilhamento, bem como o identificador de compartilhamento do metastore do Unity Catalog anexado ao workspace que o usuário ou grupo de usuários usará para acessar o compartilhamento. O identificador de compartilhamento é o identificador key que permite a conexão segura.

    Para obter detalhes, consulte Passo 2: Criar o destinatário.

  4. O provedor de dados concede acesso ao destinatário ao compartilhamento.

    Para detalhes, consulte Gerenciar acesso a compartilhamentos de dados OpenSharing (para provedores).

  5. O compartilhamento fica disponível no workspace Databricks do destinatário, e os destinatários podem acessá-lo usando o Catalog Explorer, a CLI do Databricks ou comandos SQL em um Notebook do Databricks ou no editor de consultas do Databricks SQL.

    Para acessar as tabelas, as views, os volumes e os Notebooks em um compartilhamento, um administrador de metastore ou usuário privilegiado deve criar um catálogo a partir do compartilhamento. Então, esse usuário ou outro usuário a quem for concedido o privilégio apropriado pode conceder a outros usuários acesso ao catálogo e aos objetos no catálogo. A concessão de permissões em catálogos compartilhados e ativos de dados funciona da mesma forma que para quaisquer outros ativos registrados no Unity Catalog, com a importante distinção de que os usuários podem receber apenas acesso de leitura em objetos em catálogos que são criados a partir de compartilhamentos OpenSharing.

    Notebooks compartilhados residem no nível do catálogo, e qualquer usuário com o privilégio USE CATALOG no catálogo pode acessá-los.

    Consulte Ler dados compartilhados usando Databricks-to-Databricks Compartilhamento Aberto (para destinatários).

Melhore o desempenho de leitura da tabela com o compartilhamento da história

O compartilhamento de tabelas Databricks-to-Databricks pode melhorar o desempenho ao habilitar o compartilhamento de história. O compartilhamento de história melhora o desempenho ao aproveitar as credenciais de segurança temporárias do seu armazenamento em cloud, com escopo reduzido para o diretório raiz da tabela Delta compartilhada do provedor, resultando em um desempenho comparável ao acesso direto às tabelas de origem.

  • Para novos compartilhamentos de tabela, especifique WITH HISTORY ao criar o compartilhamento de tabela. Consulte Adicionar tabelas a um compartilhamento. Ao compartilhar uma tabela usando compute no Databricks Runtime 16.2 e acima, WITH HISTORY é o default.
  • Para compartilhamentos de tabelas existentes, você deve alterar o compartilhamento para compartilhar a história da tabela. Consulte Atualizar compartilhamentos. Ao compartilhar uma tabela usando o compute no Databricks Runtime 16.2 e acima, WITH HISTORY é o default.

Quando você compartilha um esquema inteiro, todas as tabelas no esquema são compartilhadas com histórico por default.

nota

Tabelas com particionamento ativado não recebem os benefícios de desempenho do compartilhamento de história. Consulte Especificar partições de tabela para compartilhar

Para requisitos de elegibilidade de tokens da cloud e considerações de privacidade de dados, consulte Elegibilidade de tokens da cloud.

Matriz de suporte do Databricks-to-Databricks OpenSharing para ambientes cloud

O compartilhamento aberto Databricks-to-Databricks oferece suporte ao compartilhamento dentro do mesmo tipo de ambiente. Nuvens comerciais incluem workspaces com controles de compliance habilitados, como o FedRAMP Moderate. O compartilhamento com ambientes do Azure Government não é compatível.

info

Visualização

O compartilhamento entre domínios regulatórios está em Pré-lançamento público restrito. Entre em contato com sua equipe de conta da Databricks para começar.

Nesta matriz, cada linha representa o ambiente do provedor (o metastore de compartilhamento de dados), e cada coluna representa o ambiente do destinatário (o metastore que recebe dados compartilhados).

Provedor

Destinatário: nuvens comerciais

Destinatário: AWS GovCloud

Destinatário: AWS GovCloud DoD

Destinatário: Azure China

Nuvens comerciais

AWS GovCloud

AWS GovCloud DoD

Azure China

Limitações

Aplicam-se as seguintes limitações para compartilhamento entre domínios regulatórios.

  • Tokens de cloud são usados a menos que um compartilhamento entre ou saia de AWS GovCloud ou AWS GovCloud DoD. Nesses casos a seguir, tabelas são compartilhadas utilizando URLs pré-assinados em vez disso:

    • Uma cloud comercial compartilha com ou recebe da AWS GovCloud ou da AWS GovCloud DoD.
    • AWS GovCloud e AWS GovCloud DoD compartilham entre si.
  • Workspaces comerciais do GCP não podem compartilhar com ou receber compartilhamentos da AWS GovCloud DoD.