Pular para o conteúdo principal

Configurar e gerenciar o Unity Catalog

Este artigo explica como configurar e usar o site Unity Catalog para gerenciar dados em seu site Databricks workspace. Ele se destina principalmente aos administradores do workspace que estão usando o Unity Catalog pela primeira vez. Para configurar o Unity Catalog usando o provedor Databricks Terraform, consulte Automatizar a configuração do Unity Catalog usando o Terraform.

Ao final deste artigo, o senhor terá:

  • Um espaço de trabalho preparado para o Unity Catalog.
  • que tem acesso a Unity Catalog.
  • Usuários com permissão para acessar e criar objetos no Unity Catalog.

O senhor também pode consultar outros artigos introdutórios:

nota

Se o senhor quiser fazer upgrade de um non-Unity-Catalog existente workspace para Unity Catalog, poderá se beneficiar do uso do UCX, um projeto do Databricks Labs que fornece um conjunto de fluxo de trabalho e utilidades para fazer upgrade de identidades, permissões e tabelas para Unity Catalog. Consulte Use o UCX utilidades para atualizar seu workspace para Unity Catalog.

Visão geral da ativação do Unity Catalog

Para usar Unity Catalog, seu espaço de trabalho Databricks deve estar habilitado para Unity Catalog, o que significa que o espaço de trabalho está anexado a um Unity Catalog metastore, o contêiner de nível superior para Unity Catalog metadados.

A forma como os administradores configuram o Unity Catalog depende do fato de o workspace ter sido ativado automaticamente para o Unity Catalog ou exigir ativação manual.

Ativação automática do Unity Catalog

Databricks começou a habilitar o novo espaço de trabalho para Unity Catalog automaticamente em 8 de novembro de 2023, com uma implementação gradual em toda a conta. que foram ativadas automaticamente têm as seguintes propriedades:

  • Um metastore de provisionamento automático Unity Catalog (a menos que já exista um metastore Unity Catalog para a região workspace e o metastore esteja habilitado para atribuição automática workspace).

  • privilégios padrão para administradores do workspace, como a capacidade de criar um catálogo ou uma conexão de banco de dados externo.

  • Nenhum administrador de metastore (a menos que um metastore existente do Unity Catalog tenha sido usado e um administrador de metastore já tenha sido atribuído).

  • Não há armazenamento em nível de metastore para gerenciar tabelas e volumes de gerenciar (a menos que um metastore Unity Catalog existente com armazenamento em nível de metastore tenha sido usado).

  • Um catálogoworkspace , que, quando originalmente provisionado, recebe o nome do senhor workspace.

    Todos os usuários do site workspace podem criar ativos no esquema default desse catálogo. Por default, esse catálogo está vinculado ao seu workspace, o que significa que ele só pode ser acessado por meio do seu workspace. O provisionamento automático do catálogo workspace na criação do workspace está sendo implementado gradualmente em toda a conta.

    Seu workspace obtém o catálogo workspace somente se o criador do workspace tiver fornecido um IAM role e um local de armazenamento apropriados durante o workspace provisionamento. Se você não tiver esse catálogo, poderá criar um catálogo semelhante seguindo as instruções em Criar catálogos.

Essas configurações do default funcionarão bem para a maioria dos espaços de trabalho, mas todas elas podem ser modificadas por um administrador do workspace ou do account. Por exemplo, um administrador de account pode atribuir um administrador de metastore e criar armazenamento em nível de metastore, e um administrador de workspace pode modificar o nome e o acesso ao catálogo de workspace.

E se o meu workspace não tiver sido ativado automaticamente para Unity Catalog?

Se o seu workspace não foi ativado automaticamente para Unity Catalog, um administrador do account ou administrador do metastore deverá anexar manualmente o workspace a um metastore Unity Catalog na mesma região. Se não houver um metastore Unity Catalog na região, o administrador do account deverá criar um. Para obter instruções, consulte Criar um metastore do Unity Catalog.

Como posso saber se meu workspace foi habilitado para Unity Catalog?

Para confirmar se o seu workspace está habilitado para Unity Catalog, peça a um administrador do Databricks workspace ou do account para verificar para o senhor. Consulte também Etapa 1: Confirme se o site workspace está habilitado para Unity Catalog.

Como posso saber se meu site workspace inclui um catálogoworkspace ?

Alguns novos espaços de trabalho têm um catálogoworkspace , que, quando originalmente provisionado, recebe o nome do senhor workspace. Para determinar se o seu workspace tem um, clique em Ícone de catálogo Catalog na barra lateral para abrir o Catalog Explorer e procure um catálogo que use o seu nome workspace como o nome do catálogo.

nota

O catálogo workspace é como qualquer outro catálogo em Unity Catalog: um administrador de workspace pode alterar seu nome, alterar sua propriedade ou até mesmo excluí-lo. No entanto, imediatamente após a criação do workspace, ele recebe o nome workspace

Antes de começar

Antes de iniciar a tarefa descrita neste artigo, o senhor deve se familiarizar com os conceitos básicos do site Unity Catalog, incluindo metastores, funções de administrador e armazenamento gerenciado. Consulte O que é o Unity Catalog?

Você também deve confirmar que atende aos seguintes requisitos:

  • Um Databricks workspace no plano Premium ou acima.

  • As seguintes funções e privilégios, que dependem do status do seu workspace:

    • administrador do espaço de trabalho: Se o seu workspace foi habilitado para Unity Catalog automaticamente quando foi criado, o senhor deve ser um administrador do workspace para concluir a tarefa necessária.

    • administrador da conta: Se o seu workspace ainda não estiver habilitado para Unity Catalog, um administrador do account deverá anexar o workspace ao metastore.

      Se não houver um metastore Unity Catalog na mesma região que o workspace, o administrador do account também deverá criar o metastore Unity Catalog.

      As instruções para determinar se existe um metastore para sua região workspace, juntamente com as instruções para criar um metastore, seguem neste artigo.

    Consulte Privilégios de administrador no Unity Catalog e Ativação automática do Unity Catalog.

Etapa 1: Confirme se o site workspace está habilitado para Unity Catalog

Nesta etapa, o senhor determina se o seu workspace já está habilitado para Unity Catalog, onde a habilitação é definida como ter um metastore Unity Catalog anexado ao workspace. Se o seu workspace não estiver habilitado para Unity Catalog, o senhor deverá habilitar o seu workspace para Unity Catalog manualmente. Consulte Próximas etapas se o site workspace não estiver habilitado para Unity Catalog.

Para confirmar, faça o seguinte.

Use o console account para confirmar a ativação do Unity Catalog

  1. Como administrador do Databricks account , log no console account.
  2. Clique Ícone do espaço de trabalho Espaços de trabalho .
  3. Encontre seu site workspace e verifique a coluna Metastore . Se um nome de metastore estiver presente, seu workspace está anexado a um metastore Unity Catalog e, portanto, habilitado para Unity Catalog.

executar a consulta SQL para confirmar a habilitação do Unity Catalog

Execute a seguinte consulta SQL no editor de consultas SQL ou em um Notebook anexado a um recurso habilitado para o Unity Catalog compute. Nenhuma função de administrador é necessária.

SQL
SELECT CURRENT_METASTORE();

Se a consulta retornar um ID de metastore como o seguinte, então o seu workspace está anexado a um metastore Unity Catalog e, portanto, habilitado para Unity Catalog.

Saída atual do metastore

Próximas etapas se o site workspace não estiver habilitado para Unity Catalog

Se o seu workspace não estiver habilitado para Unity Catalog (anexado a um metastore), a próxima etapa dependerá de o senhor já ter ou não um metastore Unity Catalog definido para a sua região workspace:

  • Se o seu account já tiver um metastore Unity Catalog definido para a sua região workspace, o senhor pode simplesmente anexar o seu workspace ao metastore existente. Acesse Enable your workspace for Unity Catalog.
  • Se não houver um metastore Unity Catalog definido para a região workspace, o senhor deverá criar um metastore e, em seguida, anexar o workspace. Vá para Criar um metastore do Unity Catalog.

Quando seu workspace estiver habilitado para Unity Catalog, vá para a próxima etapa.

Etapa 2: Adicione usuários e atribua a função de administrador do workspace

O usuário que cria o workspace é automaticamente adicionado como um usuário workspace com a função workspace admin (ou seja, um usuário do grupo admins workspace-local). Como administrador do workspace, o senhor pode adicionar e convidar usuários para o workspace, pode atribuir a função de administrador do workspace a outros usuários e pode criar entidades de serviço e grupos.

Os administradores de conta também podem adicionar usuários, entidades de serviço e grupos ao seu site workspace. Eles podem conceder as funções de administrador do account e de administrador do metastore.

Para obter detalhes, consulte gerenciar usuários.

(Recomendado) Sincronize as identidades de nível accountdo seu IdP

Pode ser conveniente gerenciar o acesso do usuário ao Databricks configurando o provisionamento de um provedor de identidade (IdP) de terceiros, como o Okta. Para obter instruções completas, consulte Sincronizar usuários e grupos do seu provedor de identidade usando o SCIM.

Etapa 3: Crie um armazém de clustering ou SQL que os usuários possam usar para executar consultas e criar objetos

Para executar as cargas de trabalho do Unity Catalog, o compute recurso deve atender a determinados requisitos de segurança. O recurso compute que não estiver em conformidade não poderá acessar dados ou outros objetos em Unity Catalog. SQL sempre cumprem os requisitos do site Unity Catalog, mas alguns modos de acesso de clustering não o fazem. Consulte Modos de acesso.

Como administrador do workspace, o senhor pode optar por tornar a criação do compute restrita aos administradores ou permitir que os usuários criem seus próprios armazéns e clusters no SQL. Também é possível criar políticas de cluster que permitam aos usuários criar seus próprios clusters, usando especificações compatíveis com o Unity Catalog que o senhor impõe. Consulte permissões de computação e Criar e gerenciar compute políticas.

Etapa 4: conceder privilégios aos usuários

Para criar objetos e acessá-los nos catálogos e esquemas do Unity Catalog, o usuário deve ter permissão para isso. Esta seção descreve os privilégios de usuário e administrador concedidos em alguns espaços de trabalho pelo site default e descreve como conceder privilégios adicionais.

privilégios de usuário padrão

Alguns espaços de trabalho têm default privilégios de usuário (não administrador) ao serem iniciados:

  • workspace workspace workspace workspace Se o default seu foi iniciado com um catálogo de provisionamento automático, todos os usuários do poderão criar objetos no esquema do catálogo.

    Para saber como determinar se o seu workspace tem um catálogo workspace, consulte Como sei se meu workspace inclui um catálogoworkspace ?

  • Se o seu workspace foi habilitado para Unity Catalog manualmente, ele tem um provisionamento de catálogo main automaticamente.

    Os usuários do espaço de trabalho têm o privilégio USE CATALOG no catálogo main, que não concede a capacidade de criar ou selecionar qualquer objeto no catálogo, mas é um pré-requisito para trabalhar com qualquer objeto no catálogo. O usuário que criou o metastore é proprietário do catálogo main pelo site default e pode transferir a propriedade e conceder acesso a outros usuários.

    Se o armazenamento do metastore for adicionado após a criação do metastore, nenhum catálogo main será provisionado.

Outros espaços de trabalho não têm catálogos criados por default e nenhum privilégio de usuário não administrador habilitado por default. Um administrador do workspace deve criar o primeiro catálogo e conceder aos usuários acesso a ele e aos objetos nele contidos. Vá para a Etapa 5: Crie novos catálogos e esquemas antes de concluir as etapas desta seção.

privilégios de administrador padrão

Alguns espaços de trabalho têm default workspace privilégios de administrador ao serem iniciados:

  • Se o seu workspace foi ativado automaticamente para Unity Catalog:

    • Os administradores do espaço de trabalho podem criar novos catálogos e objetos em novos catálogos e conceder acesso a eles.
    • Não há administrador de metastore em default.
    • Os administradores do espaço de trabalho são proprietários do catálogo workspace (se houver um) e podem conceder acesso a esse catálogo e a todos os objetos nele contidos.
  • Se o seu workspace foi ativado para Unity Catalog manualmente:

    • Os administradores do workspace não têm privilégios especiais Unity Catalog por default.
    • Os administradores do Metastore devem existir e podem criar qualquer objeto do Unity Catalog e assumir a propriedade de qualquer objeto do Unity Catalog.

Para obter uma lista dos privilégios de objeto adicionais concedidos aos administradores do workspace no espaço de trabalho Unity Catalog ativado automaticamente, consulte privilégios de administrador do espaço de trabalho quando o espaço de trabalho é ativado automaticamente para o Unity Catalog.

Conceder privilégios

Para acessar objetos diferentes dos listados nas seções anteriores, um usuário privilegiado deve conceder esse acesso.

Por exemplo, para conceder a um grupo a capacidade de criar novos esquemas em my-catalog, o proprietário do catálogo pode executar o seguinte no SQL Editor ou em um Notebook:

SQL
GRANT CREATE SCHEMA ON my-catalog TO `data-consumers`;

Se o workspace foi ativado automaticamente para o Unity Catalog, o administrador do workspace é o proprietário do catálogo workspace e pode conceder a capacidade de criar novos esquemas:

SQL
GRANT CREATE SCHEMA ON <workspace-catalog> TO `data-consumers`;

Você também pode conceder e revogar privilégios usando o Catalog Explorer.

important

O senhor não pode conceder privilégios aos grupos workspace-local users ou admins. Para conceder privilégios a grupos, eles devem ser account-level groups.

Para obter detalhes sobre o gerenciamento de privilégios em Unity Catalog, consulte gerenciar privilégios em Unity Catalog.

Etapa 5: criar novos catálogos e esquemas

Para começar a usar o Unity Catalog, o senhor deve ter pelo menos um catálogo definido. Os catálogos são a principal unidade de isolamento e organização de dados no Unity Catalog. Todos os esquemas e tabelas residem em catálogos, assim como os volumes, visualizações e modelos.

Alguns espaços de trabalho não têm catálogo de provisionamento automático. Para usar o Unity Catalog, um administrador do workspace deve criar o primeiro catálogo para esse espaço de trabalho.

Outros espaços de trabalho têm acesso a um catálogo de pré-provisionamento que seus usuários podem acessar para começar (o catálogo workspace ou o catálogo main, dependendo de como o workspace foi ativado para Unity Catalog). À medida que o senhor adiciona mais dados e AI ativos em Databricks, pode criar catálogos adicionais para agrupar esses ativos de forma a facilitar a governança lógica dos dados.

Para obter recomendações sobre a melhor forma de usar catálogos e esquemas para organizar seus dados e AI ativo, consulte as práticas recomendadas doUnity Catalog.

Como administrador do metastore, administrador do workspace (somente espaço de trabalho habilitado automaticamente) ou outro usuário com o privilégio CREATE CATALOG, o senhor pode criar novos catálogos no metastore. Ao fazer isso, você deve:

  1. Criar armazenamento gerenciar para o novo catálogo.

    O armazenamento gerenciar é um local de armazenamento dedicado em seu site AWS account para tabelas gerenciar e volumes gerenciar. O senhor pode atribuir armazenamento gerenciar ao metastore, aos catálogos e aos esquemas. Quando um usuário cria uma tabela, os dados são armazenados no local de armazenamento mais baixo na hierarquia. Por exemplo, se um local de armazenamento for definido para o metastore e o catálogo, mas não para o esquema, os dados serão armazenados no local definido para o catálogo.

    Databricks recomenda que o senhor atribua armazenamento gerenciado no nível do catálogo, pois os catálogos normalmente representam unidades lógicas de isolamento de dados. Se o senhor se sentir confortável com os dados em vários catálogos compartilhando o mesmo local de armazenamento, poderá acessar default para o local de armazenamento no nível do metastore. Se o seu workspace foi ativado para Unity Catalog automaticamente, não há armazenamento em nível de metastore pelo default. Um administrador do account tem a opção de configurar o armazenamento em nível de metastore. Consulte Especificar um local de armazenamento gerenciar em Unity Catalog e Adicionar armazenamento gerenciar a um metastore existente.

    A atribuição de armazenamento gerenciado a um catálogo exige que o senhor crie:

    • Uma credencial de armazenamento .
    • Um local externo que faz referência a essa credencial de armazenamento.

    Para obter uma introdução a esses objetos e instruções para criá-los, consulte Conectar-se ao serviço e armazenamento de objetos na nuvem usando Unity Catalog.

  2. Vincule o novo catálogo ao seu workspace se quiser limitar o acesso de outros espaços de trabalho que compartilham o mesmo metastore.

    Consulte Limitar o acesso do catálogo a um espaço de trabalho específico.

  3. Conceda privilégios no catálogo.

Para obter instruções detalhadas, consulte Criar catálogos.

O exemplo a seguir mostra a criação de um catálogo com armazenamento gerenciar, seguido da concessão do privilégio SELECT no catálogo:

SQL
CREATE CATALOG IF NOT EXISTS mycatalog
MANAGED LOCATION 's3://depts/finance';

GRANT SELECT ON mycatalog TO `finance-team`;

Para obter mais exemplos, incluindo instruções para criar catálogos usando o Catalog Explorer, consulte Criar catálogos.

Crie um esquema

Os esquemas representam agrupamentos mais granulares (como departamentos ou projetos, por exemplo) do que catálogos. Todas as tabelas e outros objetos do Unity Catalog no catálogo estão contidos em esquemas. Como proprietário de um novo catálogo, talvez você queira criar os esquemas no catálogo. Mas talvez você queira delegar a capacidade de criar esquemas a outros usuários, dando a eles o privilégio CREATE SCHEMA no catálogo.

Para obter instruções detalhadas, consulte Criar esquemas.

(Opcional) Atribuir a função de administrador do metastore

Se o site workspace foi ativado automaticamente para Unity Catalog, nenhuma função de administrador de metastore será atribuída por default. Os administradores do metastore têm alguns privilégios que os administradores do workspace não têm.

Talvez você queira designar um administrador da metastore se precisar:

Para obter informações detalhadas sobre a função de administrador do metastore e instruções para atribuí-la, consulte Atribuir um administrador de metastore.

Atualize as tabelas em seu site Hive metastore para tabelas Unity Catalog

Se o seu workspace estava em serviço antes de ser habilitado para Unity Catalog, ele provavelmente tem um Hive metastore que contém dados que o senhor deseja continuar a usar. Databricks recomenda que o senhor migre as tabelas gerenciadas pelo Hive metastore para o metastore Unity Catalog.

Consulte Upgrade Hive tables and view to Unity Catalog e Use the UCX utilidades to upgrade your workspace to Unity Catalog.

(Opcional) Continue trabalhando com seu Hive metastore

Se o seu workspace tiver um Hive metastore que contenha dados que o senhor deseja continuar a usar e o senhor optar por não seguir a recomendação de atualizar as tabelas gerenciadas pelo Hive metastore para o Unity Catalog metastore, poderá continuar a trabalhar com os dados do Hive metastore juntamente com os dados do Unity Catalog metastore.

O Hive metastore é representado nas interfaces do Unity Catalog como um catálogo denominado hive_metastore. Para continuar trabalhando com os dados no Hive metastore seu sem precisar atualizar as consultas para especificar o hive_metastore catálogo, o senhor pode definir o workspace default catálogo do hive_metastore para. Consulte gerenciar o catálogo default.

Dependendo de quando seu workspace foi ativado para Unity Catalog, o catálogo default pode já ser hive_metastore.

(Opcional) Crie armazenamento em nível de metástore

Embora o site Databricks recomende que o usuário crie um local de armazenamento gerenciar separado para cada catálogo no metastore (e o mesmo pode ser feito para os esquemas), é possível optar por criar um local gerenciar no nível do metastore e usá-lo como armazenamento para vários catálogos e esquemas.

Se você quiser armazenamento em nível de metastore, você também deve designar um administrador de metastore. Consulte (Opcional) Atribuir a função de administrador do metastore.

O armazenamento em nível de metastore é necessário somente se o senhor usar uma integração de Databricks parceiros produto que dependa de locais de preparação pessoal (obsoleto).

Para obter mais informações sobre a hierarquia de locais de armazenamento gerenciar, consulte Os dados são fisicamente separados no armazenamento.

Para saber como adicionar armazenamento em nível de metastore a metastores que não têm nenhum, consulte Adicionar armazenamento gerenciar a um metastore existente.

nota

A maioria dos workspaces habilitados para Unity Catalog antes de 8 de novembro de 2023 tem uma raiz de armazenamento em nível de metastore.

Próximas etapas