Pular para o conteúdo principal

Delta tabelas em Databricks

As mesas apoiadas pelo Delta Lake são conhecidas como mesas Delta . Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos na nuvem e registra seus metadados no metastore em um catálogo e esquema. Delta Lake é o formato de tabela default em Databricks, portanto, a maioria das referências a "tabelas" se refere a tabelas Delta, a menos que seja explicitamente declarado o contrário. Consulte O que é Delta Lake na Databricks?

A Databricks recomenda o uso de nomes de tabela totalmente qualificados em vez de caminhos de arquivo ao interagir com tabelas Delta. Embora o senhor possa criar tabelas que não usem o Delta Lake, essas tabelas não têm as garantias transacionais e as otimizações de desempenho das tabelas Delta.

A tabela a seguir descreve os tipos comuns de tabelas Delta que o senhor pode encontrar no Databricks:

Tipo de mesa

Descrição

Unity Catalog gerenciar mesa

Sempre com o apoio da Delta Lake. O site default e o tipo de tabela recomendado em Databricks. Oferece muitas otimizações integradas.

Tabela externa do Unity Catalog

Opcionalmente apoiado pelo Delta Lake. Oferece suporte a alguns padrões de integração herdados com clientes externos do Delta Lake.

Tabela estrangeira do Unity Catalog

Pode ser apoiado pela Delta Lake, dependendo do catálogo estrangeiro. As tabelas estrangeiras apoiadas por Delta Lake não têm muitas otimizações presentes nas tabelas gerenciadas por Unity Catalog.

Tabela de transmissão

Um pipeline declarativo LakeFlow dataset apoiado por Delta Lake que inclui uma definição de fluxo append ou AUTO CDC ... INTO para processamento incremental.

Hive metastore tabela

Tabelas estrangeiras em um federado interno ou externo Hive metastore e tabelas no legado workspace Hive metastore. As tabelas gerenciar e Hive metastore externas podem, opcionalmente, ser apoiadas por Delta Lake.

Visualização materializada

Um pipeline declarativo LakeFlow dataset apoiado por Delta Lake que materializa os resultados de uma consulta usando a lógica de fluxo gerencial.

Tipos de tabela legados

Os seguintes tipos de tabela legados são compatíveis com versões anteriores, mas não são recomendados para novos desenvolvimentos.

Hive tabelas

Hive descrevem tabelas implementadas usando padrões legados, inclusive os codecs legados Hive metastore, Hive SerDe ou a sintaxe Hive SQL .

As tabelas registradas usando o legado Hive metastore armazenam dados no legado DBFS root, por default. A Databricks recomenda a migração de todas as tabelas do HMS legado para o Unity Catalog. Consulte Objetos de banco de dados no site legado Hive metastore.

Opcionalmente, o senhor pode federar um Hive metastore a Unity Catalog. Consulte Hive metastore federation: habilite Unity Catalog para governar tabelas registradas em um Hive metastore.

O Apache Spark suporta o registro e a consulta de tabelas Hive, mas esses codecs não são otimizados para o Databricks. A Databricks recomenda o registro de tabelas Hive apenas para dar suporte a consultas de dados gravados por sistemas externos. Consulte Tabela Hive (legado).

Mesas ao vivo

O termo tabelas dinâmicas refere-se a uma implementação anterior da funcionalidade agora implementada como visualização materializada . Qualquer código legado que faça referência a tabelas ativas deve ser atualizado para usar a sintaxe da visualização materializada. Consulte LakeFlow Pipeline declarativo e Visualização materializada.