Conecte-se ao armazenamento de objetos clouds usando o Unity Catalog

Este artigo apresenta uma visão geral das configurações de conexão de armazenamento em nuvem necessárias para trabalhar com o uso de dados do Unity Catalog.

A Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados armazenados no armazenamento de objetos em nuvens. O Unity Catalog oferece um conjunto de ferramentas para configurar conexões seguras com o armazenamento de objetos na nuvem. Essas conexões fornecem acesso para concluir as seguintes ações:

  • Ingerir dados brutos em um lakehouse.

  • Crie e leia tabelas de gerenciamento em armazenamento seguro clouds .

  • registrar ou criar tabelas externas contendo dados tabulares.

  • Ler e gravar dados não estruturados.

Aviso

Não conceda aos usuários finais acesso em nível de armazenamento para gerenciar tabelas ou volumes do Catálogo do Unity. Esses dados comprometem segurança e governança.

Evite conceder aos usuários acesso direto a Amazon S3 ou aos buckets do Cloudflare R2 que são usados como armazenamento gerenciar Unity Catalog. A única identidade que deve ter acesso aos dados gerenciados por Unity Catalog é a identidade usada por Unity Catalog. Ignorar isso cria os seguintes problemas em seu ambiente:

  • Os controles de acesso estabelecidos no Unity Catalog podem ser contornados por usuários que têm acesso direto aos buckets S3 ou R2.

  • Auditoria, linhagem e outros recursos de monitoramento do Catálogo do Unity não capturarão acesso direto.

  • O ciclo de vida dos dados está interrompido. Ou seja, modificar, excluir ou evoluir tabelas no Databricks quebrará os consumidores que têm acesso direto ao armazenamento, e gravações fora do Databricks podem resultar em corrupção de dados.

Observação

Se o seu site workspace foi criado antes de 8 de novembro de 2023, ele pode não estar habilitado para Unity Catalog. Um administrador do account deve habilitar o Unity Catalog para o seu workspace. Consulte Ativar um workspace para Unity Catalog.

Como o Unity Catalog conecta o armazenamento de objetos ao Databricks?

O Databricks on AWS é compatível com os buckets do AWS S3 e do Cloudflare R2 (Public Preview) como locais de armazenamento em nuvem para dados ativos registrados no Unity Catalog. O R2 destina-se principalmente a casos de uso em que o senhor deseja evitar taxas de saída de dados, como o Delta Sharing em clouds e regiões. Para obter mais informações, consulte Usar réplicas do Cloudflare R2 ou migrar o armazenamento para o R2.

Para gerenciar o acesso ao armazenamento em nuvem subjacente que contém tabelas e volumes, o Unity Catalog usa os seguintes tipos de objetos:

  • Uma credencial de armazenamento representa um mecanismo de autenticação e autorização para acessar dados armazenados em suas nuvens tenant, usando um IAM role para buckets S3 ou tokens de API R2 para buckets R2 da Cloudflare. Cada credencial de armazenamento está sujeita às políticas de controle de acesso do Unity Catalog que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a uma credencial de armazenamento no Unity Catalog, a solicitação falhará e o Unity Catalog não tentará se autenticar em suas nuvens tenant em nome do usuário. A permissão para criar credenciais de armazenamento só deve ser concedida aos usuários que precisam definir locais externos. Consulte Criar uma credencial de armazenamento para se conectar ao AWS S3 e Criar uma credencial de armazenamento para se conectar ao Cloudflare R2.

  • Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem. Cada local de armazenamento está sujeito às políticas de controle de acesso do Unity Catalog que controlam quais usuários e grupos podem acessar a credencial. Se um usuário não tiver acesso a um local de armazenamento no Unity Catalog, a solicitação falhará e o Unity Catalog não tentará se autenticar em suas nuvens tenant em nome do usuário. A permissão para criar e usar locais externos só deve ser concedida a usuários que precisem criar tabelas externas, volumes externos ou gerenciar locais de armazenamento. Consulte Criar um local externo para conectar o armazenamento em nuvem ao Databricks.

    Os locais externos são usados tanto para dados externos ativos, como tabelas externas e volumes externos, quanto para dados gerenciar ativos, como tabelas gerenciar e volumes gerenciar. Para obter mais informações sobre a diferença, consulte Tabelas e volumes.

    Quando um local externo é usado para armazenar tabelas gerenciar e volumes gerenciar, ele é chamado de local de armazenamento gerenciar. Os locais de armazenamento gerenciados podem existir no nível do metastore, do catálogo ou do esquema. A Databricks recomenda a configuração de locais de armazenamento gerenciados no nível do catálogo. Se o senhor precisar de um isolamento mais granular, poderá especificar locais de armazenamento gerenciáveis no nível do esquema. que estão habilitados para o Unity Catalog automaticamente não têm armazenamento em nível de metastore pelo default, mas o senhor pode especificar um local de armazenamento gerenciar no nível do metastore para fornecer armazenamento default quando nenhum armazenamento em nível de catálogo estiver definido. O espaço de trabalho habilitado para o Unity Catalog recebe manualmente um local de armazenamento gerenciado no nível do metastore pelo site default. Consulte Especificar um local de armazenamento gerenciar no Unity Catalog e Práticas recomendadas do Unity Catalog.

Os volumes são o objeto seguro que a maioria dos usuários do Databricks deve usar para interagir diretamente com dados não tabulares no armazenamento de objetos em nuvens. Consulte Criar e trabalhar com volumes.

Observação

Embora o Unity Catalog ofereça suporte ao acesso baseado em caminho a tabelas externas e volumes externos usando URIs de armazenamento em nuvem, a Databricks recomenda que os usuários leiam e gravem todas as tabelas do Unity Catalog usando nomes de tabela e acessem dados em volumes usando caminhos /Volumes.

Próximos passos

Se você está começando a usar o Unity Catalog como administrador, consulte Configurar e gerenciar o Unity Catalog.

Se você for um novo usuário e seu workspace já estiver habilitado para o Unity Catalog, consulte tutorial: Crie sua primeira tabela e conceda privilégios no Unity Catalog.