O que é o Unity Catalog?
Este artigo apresenta Unity Catalog, uma solução de governança unificada para dados e AI ativo em Databricks. Ele explica os conceitos do key e oferece uma visão geral de como usar o Unity Catalog para controlar os dados.
O Unity Catalog também está disponível como uma implementação de código aberto. Veja os blogs de anúncios e o Unity Catalog GitHub repositório público.
Visão geral do Unity Catalog
Unity Catalog é um catálogo de dados centralizado que oferece recursos de controle de acesso, auditoria, linhagem, monitoramento de qualidade e descobrimento de dados no espaço de trabalho Databricks.
Os principais recursos do Unity Catalog incluem:
- Defina uma vez, proteja em qualquer lugar : o site Unity Catalog oferece um único local para administrar políticas de acesso a dados que se aplicam a todo o espaço de trabalho em uma região.
- Modelo de segurança em conformidade com os padrões : Unity Catalog O modelo de segurança do 's é baseado no padrão ANSI SQL e permite que os administradores concedam permissões em seu data lake existente usando uma sintaxe familiar.
- Auditoria e linhagem integradas : o site Unity Catalog captura automaticamente a auditoria no nível do usuário logs que registra o acesso aos seus dados. Unity Catalog também captura dados de linhagem que rastreiam como os dados ativos são criados e usados em todos os idiomas.
- Descoberta de dados : o Unity Catalog permite marcar e documentar ativos de dados e oferece uma interface de pesquisa para ajudar os consumidores de dados a encontrar dados.
- Tabelas do sistema : Unity Catalog permite que o senhor acesse e consulte facilmente os dados operacionais do seu account, incluindo auditoria logs, uso faturável e linhagem.
Metastore
O metastore é o contêiner de nível superior para metadados no Unity Catalog. Ele registra metadados sobre dados e AI ativo e as permissões que regem o acesso a eles. Para que um workspace use o Unity Catalog, ele deve ter um metastore Unity Catalog anexado. O senhor deve ter um metastore para cada região em que tem um espaço de trabalho.
Ao contrário do Hive metastore, o Unity Catalog metastore não é um limite de serviço: ele é executado em um ambiente multitenant e representa um limite lógico para a segregação de dados por região para um determinado Databricks account.
O modelo de objeto do Unity Catalog
Em um metastore Unity Catalog, a hierarquia de objetos de banco de dados de três níveis consiste em catálogos que contêm esquemas, que, por sua vez, contêm dados e objetos AI, como tabelas e modelos. Essa hierarquia é representada como um namespace de três níveis (catalog.schema.table-etc
) quando o senhor faz referência a tabelas, visualizações, volumes, modelos e funções.
Nível um:
- Os catálogos são usados para organizar seus dados ativos e, normalmente, são usados como o nível superior em seu esquema de isolamento de dados. Os catálogos geralmente refletem as unidades organizacionais ou os escopos do ciclo de vida do desenvolvimento de software. Consulte O que são catálogos no Databricks?
- Objetos não protegíveis por dados , como credenciais de armazenamento e locais externos, são usados para gerenciar seu modelo de governança de dados no Unity Catalog. Eles também vivem diretamente sob o metastore. Eles são descritos com mais detalhes em Securable objects that Unity Catalog uses to gerenciar access to external fonte de dados.
Nível dois:
- Os esquemas (também conhecidos como bancos de dados) contêm tabelas, visualizações, volumes, modelos AI e funções. Os esquemas organizam os dados e AI ativos em categorias lógicas que são mais granulares do que os catálogos. Normalmente, um esquema representa um único caso de uso, projeto ou sandbox da equipe. Consulte O que são esquemas em Databricks?
Nível três:
- Tabelas são coleções de dados organizadas por linhas e colunas. As tabelas podem ser gerenciadas , com o Unity Catalog gerenciando todo o ciclo de vida da tabela, ou externas , com o Unity Catalog gerenciando o acesso aos dados de dentro do Databricks, mas não gerenciando o acesso aos dados no armazenamento em nuvem de outros clientes. Consulte Introdução ao site Databricks tables and gerenciar versus tabelas e volumes externos.
- são consultas salvas em uma ou mais tabelas. Consulte O que é um view?
- Os volumes representam volumes lógicos de dados no armazenamento de objetos na nuvem. Você pode usar volumes para armazenar, organizar e acessar arquivos em qualquer formato, incluindo dados estruturados, semiestruturados e não estruturados. Normalmente, eles são usados para dados não tabulares. Os volumes podem ser gerenciados , com o Unity Catalog gerenciando todo o ciclo de vida e a disposição dos dados no armazenamento, ou externos , com o Unity Catalog gerenciando o acesso aos dados de dentro do Databricks, mas não gerenciando o acesso aos dados no armazenamento em nuvem de outros clientes. Consulte O que são volumes Unity Catalog? e Gerenciar versus tabelas e volumes externos.
- Funções são unidades de lógica salva que retornam um valor escalar ou um conjunto de linhas. Consulte Funções definidas pelo usuário (UDFs) no Unity Catalog.
- Os modelos são AI modelos pacote com MLflow e registrados em Unity Catalog como funções. Veja como gerenciar o ciclo de vida do modelo em Unity Catalog.
Objetos seguros que o site Unity Catalog usa para gerenciar o acesso a fontes de dados externas
Além dos objetos de banco de dados e do AI ativo contidos nos esquemas, o Unity Catalog também usa os seguintes objetos seguros para gerenciar o acesso ao armazenamento em nuvem e a outras fontes de dados e serviços externos:
- Credenciais de armazenamento , que encapsulam uma credencial de nuvem de longo prazo que fornece acesso ao armazenamento em nuvem. Consulte Criar uma credencial de armazenamento para se conectar ao AWS S3.
- Locais externos , que fazem referência a um caminho de armazenamento em nuvem e à credencial de armazenamento necessária para acessá-lo. Os locais externos podem ser usados para criar tabelas externas ou para atribuir um local de armazenamento gerenciar para tabelas e volumes gerenciar. Consulte Criar um local externo para conectar o armazenamento em nuvem a Databricks, Armazenamento em nuvem e isolamento de dados e Especificar um local de armazenamento gerenciar em Unity Catalog.
- Conexões , que representam credenciais que dão acesso somente leitura a um banco de dados externo em um sistema de banco de dados como o MySQL usando o Lakehouse Federation. Veja o que é Lakehouse Federation?
- credenciais de serviço , que encapsulam uma credencial de nuvem de longo prazo que fornece acesso a um serviço externo. Consulte Criar credenciais de serviço.
Objetos seguros que o site Unity Catalog usa para gerenciar o acesso ao ativo compartilhado
Unity Catalog usa os seguintes objetos seguros para gerenciar dados e AI compartilhamento ativo entre limites organizacionais ou de metastore:
- Salas limpas , que representam um ambiente Databricks-gerenciar onde vários participantes podem colaborar em projetos sem compartilhar dados subjacentes entre si. Veja o que são as salas limpas da Databricks.
- Shares , que são objetos Delta Sharing que representam uma coleção de dados somente leitura e AI ativos que um provedor de dados compartilha com um ou mais destinatários.
- Destinatários , que são objetos Delta Sharing que representam uma entidade que recebe compartilhamentos de um provedor de dados.
- Providers , que são objetos Delta Sharing que representam uma entidade que compartilha dados com um destinatário.
Para obter mais informações sobre os objetos protegíveis do Delta Sharing, consulte O que é Delta Sharing?
Funções de administrador
As seguintes funções de administrador Databricks têm muitos privilégios Unity Catalog por default:
- administradores de conta: podem criar repositórios, vincular espaços de trabalho a repositórios, adicionar usuários e atribuir privilégios aos repositórios.
- Administradores do espaço de trabalho: podem adicionar usuários a um workspace e gerenciar muitos objetos específicos do workspace, como Job e Notebook. Dependendo do workspace, os administradores do workspace também podem ter muitos privilégios no metastore que está anexado ao workspace.
- Administradores de metastore : Essa função opcional é necessária se o senhor quiser gerenciar o armazenamento de tabelas e volumes no nível do metastore. Também é conveniente se o senhor quiser gerenciar dados de forma centralizada em vários espaços de trabalho em uma região.
Para obter mais informações, consulte Privilégios de administrador em Unity Catalog.
Conceder e revogar acesso a objetos protegíveis
Usuários privilegiados podem conceder e revogar o acesso a objetos protegíveis em qualquer nível da hierarquia, incluindo a própria metastore. O acesso a um objeto concede implicitamente o mesmo acesso a todos os filhos desse objeto, a menos que o acesso seja revogado.
O senhor pode usar o comando ANSI SQL típico para conceder e revogar o acesso a objetos em Unity Catalog. Por exemplo:
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
O senhor também pode usar o Catalog Explorer, a CLI do Databricks e as APIs REST para gerenciar as permissões de objetos.
Administradores do Metastore, proprietários de um objeto e usuários com o MANAGE privilege
em um objeto podem conceder e revogar o acesso. Para saber como gerenciar privilégios em Unity Catalog, consulte gerenciar privilégios em Unity Catalog.
acesso padrão a objetos de banco de dados em Unity Catalog
Unity Catalog opera com base no princípio do menor privilégio, em que os usuários têm o mínimo de acesso necessário para realizar a tarefa exigida. Quando um workspace é criado, os usuários não administradores têm acesso apenas ao catálogo do espaço de trabalho de provisionamento automático, o que torna esse catálogo um local conveniente para os usuários experimentarem o processo de criação e acesso a objetos de banco de dados em Unity Catalog. Consulte privilégios do catálogo do espaço de trabalho.
Trabalho com objetos de banco de dados no Unity Catalog
Trabalhar com objetos de banco de dados em Unity Catalog é muito semelhante a trabalhar com objetos de banco de dados registrados em Hive metastore, com a exceção de que Hive metastore não inclui catálogos no namespace do objeto. O senhor pode usar a sintaxe ANSI familiar para criar objetos de banco de dados, gerenciar objetos de banco de dados, gerenciar permissões e trabalhar com dados no Unity Catalog. O senhor também pode criar objetos de banco de dados, gerenciar objetos de banco de dados e gerenciar permissões em objetos de banco de dados usando a interface do usuário do Catalog Explorer.
Para obter mais informações, consulte Objetos de banco de dados em Databricks.
gerenciar versus tabelas e volumes externos
As tabelas e os volumes podem ser gerenciais ou externos.
- As tabelas gerenciar são totalmente gerenciadas por Unity Catalog, o que significa que Unity Catalog gerencia tanto a governança quanto os arquivos de dados subjacentes para cada tabela gerenciar. As tabelas gerenciar são armazenadas em um local do Unity Catalog-gerenciar em seu armazenamento na nuvem. As tabelas gerenciais sempre usam o formato Delta Lake. O senhor pode armazenar tabelas gerenciais nos níveis do metastore, do catálogo ou do esquema.
- Tabelas externas são tabelas cujo acesso a partir de Databricks é gerenciado por Unity Catalog, mas cujo ciclo de vida de dados e disposição de arquivos são gerenciados usando seu provedor de nuvem e outras plataformas de dados. Normalmente, o senhor usa tabelas externas para registrar grandes quantidades de dados existentes em Databricks ou se também precisar de acesso de gravação às ferramentas de uso de dados fora de Databricks. As tabelas externas são suportadas em vários formatos de dados. Depois que uma tabela externa é registrada em um metastore Unity Catalog, o senhor pode gerenciar e auditar o acesso Databricks a ela - e trabalhar com ela - da mesma forma que faz com as tabelas gerenciadas.
- gerenciar volumes são totalmente gerenciados por Unity Catalog, o que significa que Unity Catalog gerencia o acesso ao local de armazenamento do volume em seu provedor de nuvem account. Quando o senhor cria um volume gerenciar, ele é armazenado automaticamente no local de armazenamento gerenciar atribuído ao esquema que o contém.
- Os volumes externos representam dados existentes em locais de armazenamento gerenciados fora de Databricks, mas registrados em Unity Catalog para controlar e auditar o acesso de dentro de Databricks. Ao criar um volume externo no Databricks, o usuário especifica sua localização, que deve estar em um caminho definido em uma localização externa do Unity Catalog.
Databricks recomenda gerenciar tabelas e volumes para a maioria dos casos de uso, pois eles permitem que o senhor aproveite ao máximo os recursos de governança do Unity Catalog e as otimizações de desempenho. Para obter informações sobre casos de uso típicos de tabelas e volumes externos, consulte gerenciar e tabelas externas e gerenciar e volumes externos.
Veja também:
- Unity Catalog Gerenciar tabelas em Databricks para Delta Lake e Apache Iceberg
- Trabalhe com tabelas externas
- gerenciar vs. volumes externos.
Armazenamento em nuvem e isolamento de dados
O Unity Catalog usa o armazenamento em nuvem de duas maneiras principais:
- Armazenamento gerenciar : default locais para tabelas gerenciar e volumes gerenciar (dados não estruturados e não tabulares) que o senhor cria em Databricks. Esses locais de armazenamento gerencial podem ser definidos no nível do metastore, do catálogo ou do esquema. O senhor cria locais de armazenamento gerenciar em seu provedor de nuvem, mas o ciclo de vida deles é totalmente gerenciado por Unity Catalog.
- Locais de armazenamento onde tabelas e volumes externos são armazenados. São tabelas e volumes cujo acesso de Databricks é gerenciado por Unity Catalog, mas cujo ciclo de vida de dados e disposição de arquivos são gerenciados usando seu provedor de nuvem e outras plataformas de dados. Normalmente, o senhor usa tabelas ou volumes externos para registrar grandes quantidades de dados existentes em Databricks ou se também precisar de acesso de gravação às ferramentas de uso de dados fora de Databricks.
Controlando o acesso ao armazenamento em nuvem usando locais externos
Tanto os locais de armazenamento gerenciáveis quanto os locais de armazenamento em que as tabelas e os volumes externos são armazenados usam objetos de segurança de locais externos para gerenciar o acesso a partir de Databricks. Objetos de localização externa fazem referência a um caminho de armazenamento em nuvem e à credencial de armazenamento necessária para acessá-lo. As credenciais de armazenamento são, por sua vez, objetos protegíveis Unity Catalog que registram as credenciais necessárias para acessar um determinado caminho de armazenamento. Juntos, esses itens de segurança garantem que o acesso ao armazenamento seja controlado e rastreado pelo Unity Catalog.
O diagrama abaixo representa a hierarquia do sistema de arquivos de um único bucket de armazenamento em nuvem, com quatro locais externos que compartilham uma credencial de armazenamento.
Para obter mais informações, consulte Como o site Unity Catalog controla o acesso ao armazenamento em nuvem?
Gerenciar a hierarquia de depósitos
O nível em que o senhor define o armazenamento gerenciar em Unity Catalog depende do seu modelo de isolamento de dados preferido. Sua organização pode exigir que determinados tipos de dados sejam armazenados em contas ou buckets específicos em sua nuvem tenant.
Unity Catalog permite que o senhor configure locais de armazenamento gerenciados no nível do metastore, do catálogo ou do esquema para atender a esses requisitos.
Por exemplo, digamos que sua organização tenha uma política compliance que exija que os dados de produção relacionados a recursos humanos residam no bucket s3://mycompany-hr-prod. No Unity Catalog, o senhor pode atingir esse requisito definindo um local em um nível de catálogo, criando um catálogo chamado, por exemplo, hr_prod
, e atribuindo a ele o local s3://mycompany-hr-prod/unity-catalog. Isso significa que gerenciar tabelas ou volumes criados no catálogo hr_prod
(por exemplo, usando CREATE TABLE hr_prod.default.table …
) armazena seus dados em s3://mycompany-hr-prod/unity-catalog. Opcionalmente, você pode optar por fornecer locais em nível de esquema para organizar os dados dentro do hr_prod catalog
em um nível mais granular.
Se o isolamento do armazenamento não for necessário para alguns catálogos, você pode, opcionalmente, definir um local de armazenamento no nível do metastore. Esse local serve como um default local para gerenciar tabelas e volumes em catálogos e esquemas que não têm armazenamento atribuído. No entanto, normalmente, o site Databricks recomenda que o senhor atribua locais de armazenamento gerenciar separados para cada catálogo.
O sistema avalia a hierarquia dos locais de armazenamento do esquema para o catálogo e para o metastore.
Por exemplo, se uma tabela myCatalog.mySchema.myTable
for criada em my-region-metastore
, o local de armazenamento da tabela será determinado de acordo com a seguinte regra:
- Se um local tiver sido fornecido para
mySchema
, ele será armazenado lá. - Caso contrário, se um local tiver sido fornecido em
myCatalog
, ele será armazenado lá. - Por fim, se nenhum local tiver sido fornecido em
myCatalog
, ele será armazenado no local associado amy-region-metastore
.
Para obter mais informações, consulte Especificar um local de armazenamento gerenciar em Unity Catalog.
Isolamento do ambiente usando workspace-catalog binding
Pelo site default, os proprietários de catálogos (e administradores de metastore, se estiverem definidos para o account) podem tornar um catálogo acessível aos usuários em vários espaços de trabalho anexados ao mesmo Unity Catalog metastore.
Requisitos organizacionais e de conformidade frequentemente especificam que você mantenha determinados dados, como dados pessoais, acessíveis apenas em ambientes específicos. Você também pode manter os dados de produção isolados dos ambientes de desenvolvimento ou garantir que determinados conjuntos de dados e domínios nunca sejam unidos.
Em Databricks, o workspace é o principal ambiente de processamento de dados, e os catálogos são o principal domínio de dados. Unity Catalog permite que administradores de metastore, proprietários de catálogos e usuários com a permissão MANAGE
atribuam ou "vinculem" catálogos a espaços de trabalho específicos. Essas associações com reconhecimento de ambiente permitem que o senhor garanta que apenas determinados catálogos estejam disponíveis em um site workspace, independentemente dos privilégios específicos em objetos de dados concedidos a um usuário. No entanto, se o senhor usar o espaço de trabalho para isolar o acesso aos dados do usuário, talvez queira limitar o acesso ao catálogo a um espaço de trabalho específico no site account, para garantir que determinados tipos de dados sejam processados somente nesse espaço de trabalho. O senhor pode querer um espaço de trabalho separado para produção e desenvolvimento, por exemplo, ou um workspace separado para o processamento de dados pessoais. Isso é conhecido como workspace-catalog binding. Consulte Limitar o acesso do catálogo a um espaço de trabalho específico.
Para aumentar o isolamento dos dados, o senhor também pode vincular o acesso ao armazenamento em nuvem e o acesso ao serviço em nuvem a um espaço de trabalho específico. Consulte (Opcional) Atribuir uma credencial de armazenamento a um espaço de trabalho específico, (Opcional) Atribuir um local externo a um espaço de trabalho específico e (Opcional) Atribuir uma credencial de serviço a um espaço de trabalho específico.
Como faço para configurar o Unity Catalog para minha organização?
Para usar o Unity Catalog, seu Databricks workspace deve estar habilitado para Unity Catalog, o que significa que o workspace está anexado a um Unity Catalog metastore.
Como um workspace é anexado a um metastore? Depende do site account e do site workspace:
- Normalmente, quando o senhor cria um Databricks workspace em uma região pela primeira vez, o metastore é criado automaticamente e anexado ao workspace.
- Para algumas contas mais antigas, um administrador do account deve criar o metastore e atribuir o espaço de trabalho dessa região ao metastore. Para obter instruções, consulte Criar um metastore do Unity Catalog.
- Se um account já tiver um metastore atribuído a uma região, um administrador do account poderá decidir se anexará o metastore automaticamente a todos os novos espaços de trabalho nessa região. Consulte Habilitar um metastore para ser atribuído automaticamente a um novo espaço de trabalho.
Independentemente de o seu workspace ter sido ativado automaticamente para Unity Catalog, as etapas a seguir também são necessárias para começar com Unity Catalog:
- Crie catálogos e esquemas para conter objetos de banco de dados, como tabelas e volumes.
- Criar locais de armazenamento gerenciar para armazenar as tabelas e os volumes gerenciar nesses catálogos e esquemas.
- Conceda ao usuário acesso a catálogos, esquemas e objetos de banco de dados.
que são automaticamente habilitados para Unity Catalog provisionamento de um catálogoworkspace com privilégios amplos concedidos a todos os usuários workspace. Esse catálogo é um ponto de partida conveniente para experimentar o Unity Catalog.
Para obter instruções detalhadas de configuração, consulte Get começar with Unity Catalog.
Atualização de um site existente workspace para Unity Catalog
Para saber como fazer upgrade de umUnity Catalog workspace espaço de trabalho que não seja Unity Catalog para, consulte Fazer upgrade de um Databricks espaço de trabalho Unity Catalog para.
Requisitos e restrições do Unity Catalog
Unity Catalog requer tipos específicos de compute e formatos de arquivo, descritos abaixo. Também estão listados abaixo alguns Databricks recursos que não são totalmente compatíveis com Unity Catalog em todas as versões de Databricks Runtime.
Suporte regional
Todas as regiões suportam o Unity Catalog. Para obter detalhes, consulte Nuvens e regiões do Databricks.
requisitos de computação
Unity Catalog é suportado em clustering que executa Databricks Runtime 11.3 LTS ou acima. Unity Catalog é suportado pelo site default em todas as SQL warehouse compute versões.
Os clusters executados em versões anteriores do Databricks Runtime não oferecem compatibilidade com todos os recursos e funcionalidades do Unity Catalog GA.
Para acessar os dados em Unity Catalog, o clustering deve ser configurado com o modo de acesso correto. Unity Catalog é seguro por default. Se um clustering não estiver configurado com o modo de acesso padrão ou dedicado, o clustering não poderá acessar os dados em Unity Catalog. Consulte Modos de acesso.
Para obter informações detalhadas sobre as alterações de funcionalidade do Unity Catalog em cada versão do Databricks Runtime, consulte as notas sobre a versão.
As limitações do Unity Catalog variam de acordo com o modo de acesso e a versão do Databricks Runtime. Consulte as limitações do modo de acesso à computação para Unity Catalog.
Suporte ao formato de arquivo
O Unity Catalog é compatível com os seguintes formatos de tabela:
- As tabelas gerenciais devem usar o formato de tabela
delta
. - As tabelas externas podem usar
delta
,CSV
,JSON
,avro
,parquet
,ORC
outext
.
Requisitos de nomenclatura de objetos protegíveis
As seguintes limitações se aplicam a todos os nomes de objetos no Unity Catalog:
-
Os nomes dos objetos não podem exceder 255 caracteres.
-
Os seguintes caracteres especiais não são permitidos:
- Período (
.
) - Espaço ()
- Barra frontal (
/
) - Todos os caracteres de controle ASCII (hexadecimal 00-1F)
- O caractere DELETE (hexadecimal 7F)
- Período (
-
O Unity Catalog armazena todos os nomes de objetos em letras minúsculas.
-
Ao fazer referência a nomes de UCs no SQL, o senhor deve usar pontos finais para escapar de nomes que contenham caracteres especiais, como hífens (
-
).
Os nomes de coluna podem usar caracteres especiais, mas o nome deve ser escapado com backticks em todas as instruções SQL se forem usados caracteres especiais. O Unity Catalog preserva a caixa do nome da coluna, mas as consultas às tabelas do Unity Catalog não diferenciam maiúsculas de minúsculas.
Limitações
O Unity Catalog tem as seguintes limitações. Alguns deles são específicos das versões mais antigas do site Databricks Runtime e dos modos de acesso do site compute.
As cargas de trabalho de transmissão estruturada têm limitações adicionais, dependendo do site Databricks Runtime e do modo de acesso. Consulte as limitações do modo de acesso à computação para Unity Catalog.
A Databricks lança regularmente novas funcionalidades que reduzem essa lista.
- Os grupos que foram criados anteriormente em um workspace (ou seja, grupos de nível workspace) não podem ser usados em declarações Unity Catalog
GRANT
. Isso é para garantir uma view consistente de grupos que podem se estender por todo o espaço de trabalho. Para usar grupos em declaraçõesGRAN
T, crie seus grupos no nível account e atualize qualquer automação para gerenciamento de principal ou grupo (como SCIM, conectores Okta e Microsoft Entra ID e Terraform) para fazer referência ao endpoint account em vez do endpoint workspace. Consulte Fontes do grupo. - As cargas de trabalho no R não são compatíveis com o uso da visualização dinâmica para segurança em nível de linha ou coluna no site compute executando Databricks Runtime 15.3 e abaixo.
Use um recurso dedicado compute executando Databricks Runtime 15.4 LTS ou acima para cargas de trabalho em R que consultam a exibição dinâmica. Essas cargas de trabalho também exigem um workspace que esteja habilitado para serverless compute. Para obter detalhes, consulte Controle de acesso refinado no site dedicado compute.
-
Não há suporte para clones rasos em Unity Catalog em compute executando Databricks Runtime 12.2 LTS e abaixo. O senhor pode usar clones rasos para criar tabelas gerenciáveis em Databricks Runtime 13.3 LTS e acima. O senhor não pode usá-los para criar tabelas externas, independentemente da versão do Databricks Runtime. Consulte Shallow clone para tabelas do Unity Catalog.
-
O agrupamento não é compatível com as tabelas do Unity Catalog. Se você executar comandos que tentarem criar uma tabela agrupada no Unity Catalog, isso vai gerar uma exceção.
-
Gravar no mesmo caminho ou tabela Delta Lake de workspaces em várias regiões pode levar a um desempenho não confiável se alguns clusters acessarem o Unity Catalog e outros não.
-
A manipulação de partições para tabelas externas usando comandos como
ALTER TABLE ADD PARTITION
exige que o registro de metadados da partição esteja ativado. Consulte Descoberta de partições para tabelas externas. -
Ao usar o modo de substituição para tabelas que não estejam no formato Delta, o usuário deve ter o privilégio CREATE TABLE no esquema pai e deve ser o proprietário do objeto existente OU ter o privilégio MODIFY no objeto.
-
Python Não há suporte para UDFs em Databricks Runtime 12.2 LTS e abaixo. Isso inclui UDAFs, UDTFs e Pandas no Spark (
applyInPandas
emapInPandas
). Python Os UDFs escalares são compatíveis com Databricks Runtime 13.3 LTS e acima. -
Scala Os UDFs não são compatíveis com Databricks Runtime 14.1 e abaixo em compute com modo de acesso padrão. Scala As UDFs escalares são compatíveis com Databricks Runtime 14.2 e acima em compute com modo de acesso padrão.
-
Os pools de thread padrão do Scala não são suportados. Em vez disso, use os conjuntos de threads especiais em
org.apache.spark.util.ThreadUtils
, por exemplo,org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool
. No entanto, os seguintes conjuntos de thread emThreadUtils
não são suportados:ThreadUtils.newForkJoinPool
e qualquer conjunto de threadsScheduledExecutorService
.
Os modelos registrados no Unity Catalog têm limitações adicionais. Consulte Limitações.
recurso quotas
Unity Catalog impõe cotas de recurso em todos os objetos protegíveis. Essas cotas são listadas em limites de recurso. Se o senhor espera exceder esses limites de recurso, entre em contato com a equipe Databricks account .
O senhor pode monitorar o uso da cota usando o recurso Unity Catalog quotas APIs. Consulte Monitorar o uso das cotas de recurso do Unity Catalog.