Pular para o conteúdo principal

Criar um metastore do Unity Catalog

Este artigo mostra como criar um metastore Unity Catalog e vinculá-lo ao espaço de trabalho.

important

Para o espaço de trabalho que foi habilitado para Unity Catalog automaticamente, as instruções neste artigo são desnecessárias. Databricks começou a habilitar o novo espaço de trabalho para Unity Catalog automaticamente em 6 de março de 2024, com uma implementação gradual em toda a conta. O senhor deve seguir as instruções deste artigo somente se tiver um workspace e ainda não tiver um metastore na sua região workspace. Para determinar se já existe um metastore em sua região, consulte Ativação automática do Unity Catalog.

Um metastore é o contêiner de nível superior para dados no Unity Catalog. Unity Catalog metastores registram metadados sobre objetos protegíveis (como tabelas, volumes, locais externos e compartilhamentos) e as permissões que regem o acesso a eles. Cada metastore expõe um namespace de três níveis (catalog).schema.table) pela qual os dados podem ser organizados. Você deve ter uma metastore para cada região em que sua organização opera. Para trabalhar com Unity Catalog, os usuários devem estar em um workspace que esteja anexado a um metastore em sua região.

Para criar uma metastore, faça o seguinte:

  1. Em seu site GCP account, opcionalmente, crie um local de armazenamento para o armazenamento em nível de metastore de tabelas e volumes gerenciados.

    Para obter informações que o ajudem a decidir se o senhor precisa de armazenamento no nível do metastore, consulte (Opcional) Criar armazenamento no nível do metastore e Os dados são fisicamente separados no armazenamento.

  2. No Databricks, crie o metastore. Databricks gera um serviço account.

  3. Dê ao serviço account acesso ao seu bucket GCS e atribua o espaço de trabalho ao metastore.

nota

Além das abordagens descritas neste artigo, o senhor também pode criar um metastore usando o provedorDatabricks Terraform, especificamente o recurso databricks_metastore. Para permitir que o Unity Catalog acesse o metastore, use databricks_metastore_data_access. Para vincular o espaço de trabalho a um metastore, use databricks_metastore_assignment.

Antes de começar

Antes de começar, o senhor deve se familiarizar com os conceitos básicos do Unity Catalog, incluindo metastores e armazenamento gerenciado. Consulte O que é o Unity Catalog?

Você também deve confirmar que atende aos seguintes requisitos para todas as etapas de configuração:

  • O senhor deve ser um administrador do Databricks account .
  • Seu Databricks account deve estar no plano Premium.
  • Se quiser configurar o armazenamento raiz no nível do metastore, o senhor deve ter permissão para criar buckets GCS e atribuir permissões a esses buckets GCS no seu Google Cloud account.

Etapa 1 (opcional): Criar o bucket do GCS

Nesta etapa, que é opcional, o senhor cria um bucket GCS para armazenar dados de tabelas e volumes gerenciais no nível do metastore. Para determinar se você precisa de armazenamento em nível de metástore, consulte (Opcional) Criar armazenamento em nível de metástore.

  1. Configure um bucket GCS no Google Cloud.

    O bucket de armazenamento é onde os dados das tabelas gerenciais serão armazenados para esse metastore. Todas as tabelas gerenciadas serão armazenadas nesse bucket, a menos que o senhor substitua o local de armazenamento nos níveis do catálogo ou do esquema.

    Quando você cria o bucket:

    • Crie-o na mesma região que o espaço de trabalho que o senhor usará para acessar os dados.
    • Use um bucket GCS dedicado para cada metastore que o senhor criar.
    • Não permita o acesso direto do usuário ao bucket.
  2. Anote o caminho do bucket (gs://bucket-name).

Etapa 2: Criar o metastore e, opcionalmente, gerar um serviço account

Para criar uma metastore:

  1. Faça logon no console da conta do Databricks.

  2. Clique em Ícone de catálogo Catálogo .

  3. Clique em Criar metastore .

  4. Digite o seguinte:

    • Um nome para a metastore.

    • A região onde o senhor deseja implantar o metastore.

      Ele deve estar na mesma região que o espaço de trabalho que o senhor deseja usar para acessar os dados. Certifique-se de que isso corresponda à região do bucket do GCS que o senhor criou anteriormente.

    • (Opcional) O caminho para o bucket do GCS que o senhor criou na tarefa anterior.

  5. Clique em Criar .

    Se o senhor tiver fornecido um caminho para um bucket do GCS na etapa anterior, a caixa de diálogo Provide Storage Access (Fornecer acesso ao armazenamento ) será exibida. Ele exibe o nome da conta de serviço gerada pelo sistema e solicita que o senhor conceda a esse serviço account duas funções IAM para o bucket GCS. Mantenha essa caixa de diálogo aberta quando o senhor passar para a próxima tarefa. Essa tarefa é necessária somente se o senhor quiser ativar o armazenamento em nível de metastore.

    Se o senhor não tiver fornecido um caminho para um bucket GCS, será solicitado a atribuir o espaço de trabalho ao metastore. Consulte a Etapa 4: Atribuir espaço de trabalho ao metastore ou Habilitar um workspace para Unity Catalog.

Etapa 3 (opcional): Dê ao serviço account acesso ao seu bucket GCS

Nesta etapa, que é necessária somente se o senhor tiver concluído a etapa 1, conceda ao serviço gerado pelo sistema account acesso ao seu bucket de armazenamento:

  1. Em outro navegador tab ou janela, acesse o console do Google Cloud e abra o bucket GCS que você forneceu na etapa anterior.

  2. Na guia Permissão , clique em + Conceder acesso e atribua à conta de serviço as seguintes funções:

    • Leitor de bucket de armazenamento legado
    • Administrador de objetos de armazenamento

    Use o endereço de e-mail da conta de serviço como identificador principal.

  3. Retorne à caixa de diálogo Provide Storage Access (Fornecer acesso ao armazenamento) no console Databricks account e clique em Permissions granted (Permissões concedidas ).

    Databricks valida que o serviço account tem o acesso correto ao bucket.

  4. Quando a validação for bem-sucedida, o senhor poderá selecionar o espaço de trabalho a ser atribuído ao metastore.

    Para saber como atribuir um espaço de trabalho a metastores, consulte a seção a seguir ou Habilite um workspace Unity Catalogpara.

Etapa 4: Atribuir espaço de trabalho ao metastore

Como parte da Etapa 2: Criar o metastore e, opcionalmente, gerar um serviço account, o senhor será solicitado a atribuir um espaço de trabalho ao metastore. Se o senhor pulou essa etapa ou precisa adicionar mais espaço de trabalho, faça o seguinte:

  1. Como administrador da conta, faça login no console da conta.
  2. Clique em Ícone de catálogo Catálogo .
  3. Clique no nome da metastore.
  4. Clique no espaço de trabalho tab.
  5. Clique em Assign to workspace (Atribuir ao espaço de trabalho ).
  6. Selecione um ou mais espaços de trabalho. O senhor pode digitar parte do nome workspace para filtrar a lista.
  7. Role até a parte inferior da caixa de diálogo e clique em Atribuir .
  8. Na caixa de diálogo de confirmação, clique em Ativar .

Etapa 5: transferir a função de administrador do metastore para um grupo

O usuário que cria uma metastore é seu proprietário, também chamado de administrador da metastore. O administrador do metastore pode criar objetos de nível superior no metastore, como catálogos, e pode gerenciar o acesso a tabelas e outros objetos. A Databricks recomenda que o senhor reatribua a função de administrador do metastore a um grupo. Consulte Atribuir um administrador de metastore.

Próximas etapas