Objetos de banco de dados no SAP Databricks
O SAP Databricks usa dois objetos seguros principais para armazenar e acessar dados.
- As tabelas controlam o acesso aos dados tabulares.
- Os volumes controlam o acesso a dados não tabulares.
Este artigo descreve como esses objetos de banco de dados se relacionam com catálogos, esquemas, visualizações e outros objetos de banco de dados no SAP Databricks. Este artigo também fornece uma introdução de alto nível sobre como os objetos do banco de dados funcionam no contexto da arquitetura geral da plataforma.
O que são objetos de banco de dados no SAP Databricks?
Objetos de banco de dados são entidades que ajudam você a organizar, acessar e controlar dados. O SAP Databricks usa uma hierarquia de três níveis para organizar os objetos do banco de dados:
- Catálogo : O contêiner de nível superior contém esquemas.
- Esquema ou banco de dados: contém objetos de dados.
- Objetos de dados que podem estar contidos em um esquema:
- Volume : um volume lógico de dados não tabulares no armazenamento de objetos na nuvem.
- Tabela : uma coleção de dados organizada por linhas e colunas.
- visualização : uma consulta salva em uma ou mais tabelas.
- Função : lógica salva que retorna um valor escalar ou um conjunto de linhas.
- Modelo : um modelo de pacote de aprendizado de máquina com MLflow.
Os catálogos são registrados em um metastore que é gerenciado no nível account.
O SAP Databricks oferece ativos adicionais para trabalhar com dados, todos eles governáveis por meio de controles de acesso de nível workspaceou Unity Catalog, as soluções de governança de dados Databricks:
- ativo de dados no nível do espaço de trabalho, como Notebook, Job e consultas.
- Objetos protegíveis do Unity Catalog, como credenciais de armazenamento e compartilhamentos do Delta Sharing, que controlam principalmente o acesso ao armazenamento ou ao compartilhamento seguro.
Gerenciar o acesso a objetos de banco de dados usando o Unity Catalog
Você pode conceder e revogar o acesso aos objetos do banco de dados em qualquer nível da hierarquia, incluindo o próprio metastore. O acesso a um objeto concede implicitamente o mesmo acesso a todos os filhos desse objeto, a menos que o acesso seja revogado.
O senhor pode usar o comando ANSI SQL típico para conceder e revogar o acesso a objetos em Unity Catalog. Você também pode usar o Catalog Explorer para gerenciar privilégios de objetos de dados com base na interface do usuário.
permissões de objeto padrão em Unity Catalog
Os usuários têm permissões default em catálogos de provisionamento automático, incluindo o catálogoworkspace (<workspace-name>
). Esse catálogo contém um esquema chamado default
que é acessível a todos os usuários no workspace.
Objetos de banco de dados vs. workspace dados seguros ativos
O SAP Databricks permite que o senhor gerencie vários dados de engenharia, analítica, ML e AI ativos juntamente com seus objetos de banco de dados. O senhor não registra esses dados ativos em Unity Catalog. Em vez disso, esses ativos são gerenciados no nível workspace, usando listas de controle para controlar as permissões. Esses dados ativos incluem o seguinte:
- cadernos
- arquivos do espaço de trabalho
- Consultas SQL
- Experiências
A maioria dos dados ativos contém lógica que interage com objetos de banco de dados para consultar funções de uso de dados, modelos de registro ou outras tarefas comuns.
gerenciar locais de armazenamento para volumes e tabelas gerenciar
Ao criar tabelas e volumes SAP Databricks, o senhor tem a opção de torná-los gerenciáveis ou externos . Unity Catalog gerenciar o acesso a tabelas e volumes externos do SAP Databricks, mas não controla os arquivos subjacentes nem gerencia totalmente o local de armazenamento desses arquivos. As tabelas e volumes gerenciados, por outro lado, são totalmente gerenciados pelo site Unity Catalog e armazenados em um local de armazenamento gerenciado associado ao esquema que os contém.
Databricks recomenda gerenciar volumes e gerenciar tabelas para a maioria das cargas de trabalho, porque eles simplificam a configuração, a otimização e a governança.