Faça upgrade de um espaço de trabalho Databricks para Unity Catalog
Esta página apresenta uma visão geral de como fazer upgrade de um site que não sejaUnity Catalog workspace para Unity Catalog. Ele também fornece instruções para migrar do legado workspace-local Hive metastore.
Visão geral das etapas de atualização
Para atualizar para o Unity Catalog, o senhor deve:
- provisionamento de identidades (usuários, grupos e entidades de serviço) diretamente no seu site Databricks account, se o senhor ainda não estiver fazendo isso. Desative qualquer provisionamento de identidade no nível workspace.
- Converta todos os grupos workspace-local em grupos de nível account. Unity Catalog centraliza o gerenciamento de identidade no nível account.
- Anexe o site workspace a um metastore Unity Catalog. Se não houver um metastore para a região workspace, um administrador do account deverá criar um.
- Atualize as tabelas e visualize gerenciar em Hive metastore para Unity Catalog.
- Conceda a usuários, grupos ou entidades de serviço de nível accountacesso às tabelas atualizadas.
- Atualize as consultas e o Job para fazer referência às novas tabelas Unity Catalog em vez das antigas tabelas Hive metastore.
- Desative o site Hive metastore. Consulte Desativar o acesso ao Hive metastore usado pelo seu Databricks workspace .
Antes de começar
Antes de começar, o senhor deve se familiarizar com os conceitos básicos do Unity Catalog, incluindo metastores e armazenamento gerenciado. Consulte O que é o Unity Catalog?
Você também deve confirmar que atende aos seguintes requisitos:
- Para a maioria das etapas de configuração, o senhor deve ser um administrador do Databricks account . Para qualquer tarefa a seguir para a qual existam outros requisitos de permissão, eles estão listados na documentação específica da tarefa.
- Seu Databricks account deve estar no plano Premium.
Atualize para as demonstrações do Unity Catalog
Assista às seguintes demonstrações guiadas curtas para ver uma tarefa de atualização d key em ação. Cada demonstração abrange uma etapa específica e contém links para documentação detalhada, quando aplicável.
-
Converter grupos locais do workspaceem grupos de nível do account
-
Atualize as tabelas em seu Hive metastore para Unity Catalog
-
Atualização de compute para Unity Catalog
-
Atualize as consultas e o trabalho para trabalhar com as tabelas atualizadas.
Como alternativa, é possível seguir a demonstração Use UCX para atualizar para Unity Catalog.
provisionamento de usuários, grupos e entidades de serviço para o seu account
Unity Catalog faz referência a account-level identities. Antes de anexar um metastore ao seu site workspace, o senhor deve fazer o seguinte:
-
Se você estiver usando SCIM para provisionar usuários, grupos e entidades de serviço do seu IdP para o seu workspace, desative-o e configure o provisionamento para sua account Databricks . Consulte Sincronizar identidades do seu provedor de identidade e Identidades.
-
Atualize qualquer automação que tenha sido configurada para gerenciar usuários, grupos e entidades de serviço, como os conectores de provisionamento SCIM e a automação Terraform, para que se refiram ao endpoint account em vez do endpoint workspace. Consulte account-level e workspace-level provisionamento.SCIM
Converter workspace-local groups para account-level groups
Consulte Migrar workspacegrupos -local para accountgrupos.
Anexe seu site workspace a um metastore
Se o seu workspace não estiver habilitado para Unity Catalog (anexado a um metastore), a próxima etapa dependerá de o senhor já ter ou não um metastore Unity Catalog definido para a sua região workspace:
- Se o seu account já tiver um metastore Unity Catalog definido para a sua região workspace, o senhor pode simplesmente anexar o seu workspace ao metastore existente. Acesse Enable a workspace for Unity Catalog.
- Se não houver um metastore Unity Catalog definido para a região workspace, o senhor deverá criar um metastore e, em seguida, anexar o workspace. Vá para Criar um metastore do Unity Catalog.
Atualize as tabelas em seu site Hive metastore para tabelas Unity Catalog
Se o seu workspace estava em serviço antes de ser habilitado para Unity Catalog, ele tem um Hive metastore que provavelmente contém dados que o senhor deseja continuar a usar. Databricks recomenda que o senhor atualize as tabelas gerenciadas pelo Hive metastore para o metastore Unity Catalog.
Opção 1: Federar e, em seguida, atualizar as tabelas estrangeiras.
A abordagem recomendada é primeiro federar seu Hive metastore como um catálogo externo e, em seguida, atualizar as tabelas externas no local. Esse processo em duas etapas permite migrar tabelas sem mover dados, preservando o histórico, a configuração, as permissões e a visualização das tabelas.
Primeiro, federarize seu Hive metastore como um catálogo externo no Unity Catalog. Isso permite que você acesse suas tabelas existentes por meio do Unity Catalog e as prepare para a atualização.
Para obter instruções sobre como federar seu Hive metastore, consulte FederaçãoHive metastore : habilitar Unity Catalog para governar tabelas registradas em um Hive metastore.
Se você optar por não atualizar suas tabelas e quiser continuar trabalhando permanentemente com o catálogo federado, poderá fazê-lo. No entanto, Databricks recomenda concluir a atualização para aproveitar ao máximo os recursos do Unity Catalog .
Após federar seu Hive metastore, você pode atualizar as tabelas externas para tabelas Unity Catalog sem qualquer movimentação de dados. Esse fluxo de trabalho atualiza as tabelas existentes, preservando a história, configuração, permissões e visualização da tabela.
Para atualizar uma tabela externa para uma tabela de gerenciamento Unity Catalog , execute o seguinte comando:
ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET MANAGED;
Databricks recomenda a atualização para uma tabela gerenciada para desbloquear a otimização preditiva Unity Catalog , que inclui manutenção automática (compactação, clustering, vacuum) e melhorias de desempenho. Para atualizar uma tabela externa para uma tabela externa Unity Catalog , execute o seguinte comando:
ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET EXTERNAL;
Após a migração das suas tabelas e quando você não precisar mais da federação com o seu catálogo externo, você poderá remover a conexão:
ALTER CATALOG <foreign_catalog> DROP CONNECTION;
Para obter mais detalhes sobre este fluxo de trabalho, consulte Converter uma tabela estrangeira em uma tabela Unity Catalog.
Opção 2: Atualize as tabelas diretamente
Se você optar por não usar o fluxo de trabalho de atualização baseado em federação, poderá atualizar as tabelas diretamente usando SYNC ou CREATE TABLE AS SELECT. Consulte as tabelas de atualização Hive e visualize-as no Unity Catalog.
Conceder acesso a tabelas atualizadas ou federadas
Conceda aos usuários de nível account, grupos ou entidades de serviço acesso às novas tabelas. Consulte gerenciar privilégios em Unity Catalog.
Atualize as consultas e o Job para trabalhar com suas tabelas atualizadas e caminhos para os dados
Enquanto estiver fazendo a transição do workspace-local Hive metastore para o Unity Catalog, o senhor pode continuar a usar consultas e trabalhos que fazem referência aos dados registrados no Hive metastore, usando a federaçãoHive metastore (recomendado) ou a sintaxe descrita em Trabalhar com o legado Hive metastore juntamente com o Unity Catalog. No entanto, eventualmente, o senhor deve atualizar todas as consultas e trabalhos para usar as tabelas e a sintaxe do site Unity Catalog.
Da mesma forma, atualize as consultas e o trabalho que usam acesso baseado em caminho aos arquivos para usar os Unity Catalog volumes.
Para obter recomendações detalhadas, consulte Atualizar trabalho quando o senhor atualizar o espaço de trabalho legado para Unity Catalog.