Pular para o conteúdo principal

Criar um metastore do Unity Catalog

Este artigo mostra como criar um metastore Unity Catalog e vinculá-lo ao espaço de trabalho.

important

Para o espaço de trabalho que foi habilitado para Unity Catalog automaticamente, as instruções neste artigo são desnecessárias. Databricks começou a habilitar o novo espaço de trabalho para Unity Catalog automaticamente em 8 de novembro de 2023, com uma implementação gradual em toda a conta. O senhor deve seguir as instruções deste artigo somente se tiver um workspace e ainda não tiver um metastore na sua região workspace. Para determinar se já existe um metastore em sua região, consulte Ativação automática do Unity Catalog.

Um metastore é o contêiner de nível superior para dados no Unity Catalog. Unity Catalog metastores registram metadados sobre objetos protegíveis (como tabelas, volumes, locais externos e compartilhamentos) e as permissões que regem o acesso a eles. Cada metastore expõe um namespace de três níveis (catalog).schema.table) pela qual os dados podem ser organizados. Você deve ter uma metastore para cada região em que sua organização opera. Para trabalhar com Unity Catalog, os usuários devem estar em um workspace que esteja anexado a um metastore em sua região.

Para criar uma metastore, faça o seguinte:

  1. Em seu site AWS account, opcionalmente, crie um local de armazenamento para o armazenamento em nível de metastore de tabelas e volumes gerenciados.

    Para obter informações que o ajudem a decidir se o senhor precisa de armazenamento no nível do metastore, consulte (Opcional) Criar armazenamento no nível do metastore e Os dados são fisicamente separados no armazenamento.

  2. Em seu AWS account, crie um IAM role que dê acesso a esse local de armazenamento.

  3. Em Databricks, crie o metastore, anexando o local de armazenamento, e atribua o espaço de trabalho ao metastore.

nota

Além das abordagens descritas neste artigo, o senhor também pode criar um metastore usando o provedorDatabricks Terraform, especificamente o recurso databricks_metastore. Para permitir que o Unity Catalog acesse o metastore, use databricks_metastore_data_access. Para vincular o espaço de trabalho a um metastore, use databricks_metastore_assignment.

Antes de começar

Antes de começar, o senhor deve se familiarizar com os conceitos básicos do Unity Catalog, incluindo metastores e armazenamento gerenciado. Consulte O que é o Unity Catalog?

Você também deve confirmar que atende aos seguintes requisitos para todas as etapas de configuração:

  • O senhor deve ser um administrador do Databricks account .
  • Sua account do Databricks deve estar no plano Premium ouacima.
  • Se quiser configurar o armazenamento raiz no nível do metastore, o senhor deve ter a capacidade de criar S3 buckets, IAM role, IAM policies e crossaccount trust relationships em seu AWS account.

Etapa 1 (opcional): Crie um bucket S3 para armazenamento gerenciar em nível de metastore no AWS

Nesta etapa, que é opcional, o senhor cria o bucket S3 exigido pelo Unity Catalog para armazenar dados de tabela e volume gerenciais no nível do metastore. O senhor cria o bucket S3 em seu próprio AWS account. Para determinar se você precisa de armazenamento em nível de metástore, consulte (Opcional) Criar armazenamento em nível de metástore.

  1. No AWS, crie um bucket S3.

    Esse bucket S3 será o local de armazenamento em nível de metastore para gerenciar tabelas e gerenciar volumes em Unity Catalog. Esse local de armazenamento pode ser substituído nos níveis do catálogo e do esquema. Consulte Especificar um local de armazenamento gerenciar em Unity Catalog

    Requisitos:

    • Se o senhor tiver mais de um metastore, deverá usar um bucket S3 dedicado para cada um deles.
    • Localize o bucket na mesma região que o espaço de trabalho do qual o senhor deseja acessar os dados.
    • O nome do bucket não pode incluir notação de ponto (por exemplo, incorrect.bucket.name.notation). Para mais orientações sobre nomenclatura de buckets, consulte as regras de nomenclatura de buckets da AWS.
  2. Anote o caminho do balde S3, que começa com s3://.

  3. Se o senhor ativar a criptografia KMS no bucket S3, anote o nome da criptografia KMS key.

Etapa 2 (opcional): Crie um IAM role para acessar o local de armazenamento

Nesta etapa, que só é necessária se o usuário tiver concluído a etapa 1, o usuário cria o IAM role exigido pelo Unity Catalog para acessar o bucket S3 que foi criado na etapa anterior. Siga estas instruções em Criar uma credencial de armazenamento para se conectar ao AWS S3:

Etapa 3: Crie o metastore e anexe um workspace

Cada região do Databricks requer seu próprio metastore do Unity Catalog.

Você cria uma metastore para cada região em que sua organização opera. O senhor pode vincular cada um desses metastores regionais a qualquer número de espaços de trabalho nessa região. Cada workspace vinculado tem o mesmo view dos dados no metastore, e o controle de acesso aos dados pode ser gerenciado em todo o espaço de trabalho. O senhor pode acessar dados em outros metastores usando o Delta Sharing.

Se o senhor optar por criar um armazenamento em nível de metastore, o metastore usará o bucket S3 e IAM role que foram criados nas etapas anteriores.

Para criar uma metastore:

  1. Faça logon no console da conta do Databricks.

  2. Clique em Ícone de catálogo Catálogo .

  3. Clique em Criar metastore .

  4. Digite o seguinte:

    • Um nome para a metastore.

    • A região onde o senhor deseja implantar o metastore.

      Isso deve estar na mesma região que os espaços de trabalho que você deseja usar para acessar os dados. É importante que isso corresponda à região do depósito de armazenamento que você criou anteriormente.

    • (Opcional) O caminho do bucket S3 (o senhor pode omitir s3://) e o nome IAM role para o bucket e a função que criou nas etapas anteriores.

  5. Clique em Criar .

  6. Quando solicitado, selecione o espaço de trabalho a ser vinculado ao metastore.

    Para obter detalhes, consulte Habilitar um workspace para Unity Catalog.

  7. Transfira a função de administrador do metastore para um grupo.

    O usuário que cria uma metastore é seu proprietário, também chamado de administrador da metastore. O administrador do metastore pode criar objetos de nível superior no metastore, como catálogos, e pode gerenciar o acesso a tabelas e outros objetos. A Databricks recomenda que o senhor reatribua a função de administrador do metastore a um grupo. Consulte Atribuir um administrador de metastore.

  8. Habilite o gerenciamento Databricks de upload para gerenciar volumes.

    Databricks usa CORS (cross-origin recurso compartilhamento) para upload dados para gerenciar volumes em Unity Catalog. Consulte Configurar o armazenamento Unity Catalog account para CORS.

Próximas etapas