Pular para o conteúdo principal

Unity Catalog GA notas sobre a versão

important

Essa documentação foi descontinuada e pode não estar atualizada. O produto, serviço ou tecnologia mencionados neste conteúdo não são mais suportados. Consulte O que é o Unity Catalog?

25 de agosto de 2022

O Unity Catalog já está disponível de forma geral na Databricks.

Este artigo descreve o site Unity Catalog a partir da data de seu lançamento no GA . Ele se concentra principalmente nos recursos e atualizações adicionados ao site Unity Catalog desde a visualização pública. Para obter informações atualizadas sobre Unity Catalog, consulte O que é Unity Catalog? Para ver as notas sobre a versão que descrevem as atualizações do site Unity Catalog desde a GA, consulte Databricks platform notas sobre a versão e Databricks Runtime notas sobre a versão versões e compatibilidade.

Limites de metastore e cotas de recurso

A partir de 25 de agosto de 2022

  • Seu Databricks account pode ter apenas um metastore por região
  • Uma metastore pode ter até 1000 catálogos.
  • Um catálogo pode ter até 10.000 esquemas.
  • Um esquema pode ter até 10.000 tabelas.

Para obter as cotas atuais do site Unity Catalog, consulte cotas de recurso.

Formatos de armazenamento compatíveis no GA

Em 25 de agosto de 2022:

  • Todas as tabelas do Unity Catalog gerenciadas armazenam dados com o Delta Lake
  • As tabelas e os locais externos do Unity Catalog suportam Delta Lake, JSON, CSV, Avro, Parquet, ORC e dados de texto.

Para conhecer os formatos de tabela compatíveis com o Unity Catalog atual, consulte Suporte a formatos de arquivo.

gerenciar Unity Catalog recurso do console account

Use a UI do console Databricks account para:

Tipos de clustering compatíveis e versões do site Databricks Runtime

Unity Catalog requer clustering que o senhor execute Databricks Runtime 11.1 ou superior. Unity Catalog é suportado pelo site default em todas as SQL warehouse compute versões.

As versões anteriores do Databricks Runtime eram compatíveis com as versões de visualização do Unity Catalog. O clustering executado em versões anteriores do site Databricks Runtime não oferece suporte a todos os recursos e funcionalidades do Unity Catalog GA.

Unity Catalog requer um dos seguintes modos de acesso quando o senhor cria um novo clustering:

  • Compartilhado

    • Idiomas: SQL ou Python
    • Um clustering seguro que pode ser compartilhado por vários usuários. Os usuários de clustering são totalmente isolados para que não possam ver os dados e as credenciais uns dos outros.
  • Único usuário

    • Idiomas: SQL, Scala, Python, R
    • Um clustering seguro que pode ser usado exclusivamente por um único usuário específico.

Para obter mais informações sobre os modos de acesso ao clustering, consulte Modos de acesso.

Para obter informações sobre a funcionalidade atualizada do Unity Catalog em versões posteriores do Databricks Runtime, consulte as notas sobre a versão para essas versões.

Tabelas do sistema

information_schema é totalmente compatível com o site Unity Catalog data ativo. Cada metastore inclui um catálogo chamado system que inclui um metastore com escopo information_schema. Veja o esquema de informações. Você pode usar information_schema para responder perguntas como as seguintes:

“Conte o número de tabelas por catálogo”

SQL
SELECT table_catalog, count(table_name)
FROM system.information_schema.tables
GROUP BY 1
ORDER by 2 DESC

“Mostre-me todas as tabelas que foram alteradas nas últimas 24 horas”

SQL
SELECT table_name, table_owner, created_by, last_altered, last_altered_by, table_catalog
FROM system.information_schema.tables
WHERE datediff(now(), last_altered) < 1

transmissão estructurada support

As cargas de trabalho de transmissão estruturada agora são compatíveis com Unity Catalog. Para obter detalhes e limitações, consulte Limitações.

Consulte também Usando Unity Catalog com transmissão estruturada.

Funções SQL

As funções SQL definidas pelo usuário agora são totalmente suportadas no Unity Catalog. Para obter informações sobre como criar e usar SQL UDFs, consulte CREATE FUNCTION (SQL e Python).

Sintaxe SQL para locais externos no Unity Catalog

A definição de dados padrão e o comando de linguagem de definição de dados agora são suportados em Spark SQL para locais externos, incluindo os seguintes:

SQL
CREATE | DROP | ALTER | DESCRIBE | SHOW EXTERNAL LOCATION

O senhor também pode gerenciar e view permissões com GRANT, REVOKE e SHOW para locais externos com SQL. Consulte Localizações externas.

Exemplo de sintaxe:

SQL
CREATE EXTERNAL LOCATION <your-location-name>
URL `<your-location-path>'
WITH (CREDENTIAL <your-credential-name>);

GRANT READ FILES, WRITE FILES, CREATE EXTERNAL TABLE ON EXTERNAL LOCATION `<your-location-name>`
TO `finance`;

Unity Catalog limitações na AG

Em 25 de agosto de 2022, o Unity Catalog tinha as seguintes limitações. Para as limitações atuais, consulte Limitações.

  • ScalaO R e as cargas de trabalho que usam o Machine Learning Runtime são suportados somente em clustering usando o modo de acesso de usuário único. As cargas de trabalho nessas linguagens não são compatíveis com o uso da exibição dinâmica para segurança no nível da linha ou da coluna.

  • Não há suporte para clones rasos ao usar o Unity Catalog como origem ou destino do clone.

  • O agrupamento não é compatível com as tabelas do Unity Catalog. Se você executar comandos que tentarem criar uma tabela agrupada no Unity Catalog, isso vai gerar uma exceção.

  • Gravar no mesmo caminho ou tabela Delta Lake de workspaces em várias regiões pode levar a um desempenho não confiável se alguns clusters acessarem o Unity Catalog e outros não.

  • O modo de substituição para operações de gravação de DataFrame no Unity Catalog é suportado apenas para tabelas Delta, não para outros formatos de arquivo. O usuário deve ter o privilégio CREATE no esquema pai e deve ser o proprietário do objeto existente.

  • Atualmente, a transmissão tem as seguintes limitações:

    • Não há suporte para clustering usando o modo de acesso compartilhado. Para cargas de trabalho de transmissão, o senhor deve usar o modo de acesso de usuário único.
    • O ponto de verificação assíncrono ainda não é suportado.
    • No site Databricks Runtime versão 11.2 e abaixo, as consultas de transmissão que duram mais de 30 dias em all-purpose ou Job clustering lançam uma exceção. Para consultas de transmissão de longa duração, configure novas tentativas automáticas de trabalho ou use Databricks Runtime 11.3 e acima.
  • Atualmente, não há suporte para a referência a tabelas Unity Catalog do pipeline DLT.

  • Os grupos criados anteriormente em um workspace não podem ser usados em declarações Unity Catalog GRANT . Isso é para garantir uma view consistente de grupos que podem se estender por todo o espaço de trabalho. Para usar grupos em declarações GRANT, crie seus grupos no console account e atualize qualquer automação para gerenciamento de principal ou grupo (como SCIM, conectores Okta e Microsoft Entra ID e Terraform) para fazer referência ao endpoint account em vez do endpoint workspace.

  • O Unity Catalog requer a versão E2 da plataforma Databricks. Todas as novas contas Databricks e a maioria das contas existentes estão no E2.

Unity Catalog regiões de disponibilidade na AG

Em 25 de agosto de 2022, o Unity Catalog estava disponível nas seguintes regiões. Para obter a lista de regiões atualmente suportadas, consulte Nuvens e regiões do Databricks.

  • us-east-1
  • us-east-2
  • us-west-2
  • ap-northeast-1
  • ap-northeast-2
  • ap-south-1
  • ap-southeast-1
  • ap-southeast-2
  • ca-central-1
  • eu-central-1
  • eu-west-1
  • eu-west-2