Trabalhe com tabelas externas
As tabelas externas armazenam dados em um diretório no armazenamento de objetos na nuvem em sua nuvem tenant. Você deve especificar um local de armazenamento ao definir uma tabela externa.
A Databricks recomenda o uso de tabelas externas somente quando o senhor também precisar de acesso direto aos dados de clientes que não sejam da Databricks. Os privilégios do Unity Catalog não são aplicados quando os usuários acessam arquivos de dados de sistemas externos.
Se o senhor atualizar os metadados da tabela externa usando um cliente que não seja do Databricks ou usando o acesso baseado em caminho de dentro do Databricks, esses metadados não sincronizarão automaticamente o estado com o Unity Catalog. Databricks não recomenda essas atualizações de metadados, mas se o senhor fizer uma, deverá executar MSCK REPAIR TABLE <table-name> SYNC METADATA
para atualizar o esquema em Unity Catalog. Veja a TABELA DE REPARO.
Este artigo se concentra em Unity Catalog tabelas externas. As tabelas externas no site legado Hive metastore têm comportamentos diferentes. Consulte Objetos de banco de dados no site legado Hive metastore.
Trabalhe com tabelas externas
Databricks apenas gerencia os metadados de tabelas externas e não usa o local de armazenamento gerenciado associado ao esquema que o contém. O registro da tabela no Unity Catalog é apenas um ponteiro para arquivos de dados. Quando você elimina uma tabela externa, os arquivos de dados não são excluídos.
Ao criar uma tabela externa, o senhor pode registrar um diretório existente de arquivos de dados como uma tabela ou fornecer um caminho para criar novos arquivos de dados.
Tabelas externas podem usar os seguintes formatos de arquivo:
- DELTA
- CSV
- JSON
- AVRO
- PARQUET
- ORC
- TEXT
Crie uma tabela externa
Para criar uma tabela externa, o senhor pode usar SQL comando ou Dataframe write operações.
Antes de começar
Para criar uma tabela externa, você deve atender aos seguintes requisitos de permissão:
- O privilégio
CREATE EXTERNAL TABLE
em um local externo que concede acesso aoLOCATION
acessado pela tabela externa. - A permissão
USE SCHEMA
no esquema principal da tabela. - A permissão
USE CATALOG
no catálogo principal da tabela. - A permissão
CREATE TABLE
no esquema principal da tabela.
Para obter mais informações sobre a configuração de locais externos, consulte Criar um local externo para conectar o armazenamento em nuvem a Databricks.
Quando o senhor conceder acesso a uma tabela externa, esteja ciente do seguinte: A Databricks recomenda que o senhor conceda privilégios de gravação em uma tabela cujo backup é feito por um local externo no S3 somente se o local externo estiver definido em um único metastore. O senhor pode ler dados com segurança em um único local externo S3 de mais de um metastore, mas gravações simultâneas no mesmo local S3 de vários metastores podem levar a problemas de consistência.
SQL exemplos de comando
Use um dos exemplos de comando a seguir em um Notebook ou no editor de consultas SQL para criar uma tabela externa.
Nos exemplos a seguir, substitua os valores nos espaços reservados:
<catalog>
: nome do catálogo que conterá a tabela.<schema>
: nome do esquema que conterá a tabela.<table-name>
: Um nome para a tabela.<column-specification>
: o nome e o tipo de dados de cada coluna.<bucket-path>
: o caminho para o bucket de armazenamento em nuvem em que a tabela será criada.<table-directory>
: diretório onde a tabela será criada. Use um diretório exclusivo para cada tabela.
CREATE TABLE <catalog>.<schema>.<table-name>
(
<column-specification>
)
LOCATION 's3://<bucket-path>/<table-directory>';
Para obter mais informações sobre os parâmetros de criação de tabelas, consulte CREATE TABLE.
Operações de gravação de dataframe
Muitos usuários criam tabelas externas a partir de resultados de consultas ou operações de gravação de DataFrame. Os artigos a seguir demonstram alguns dos muitos padrões que o senhor pode usar para criar uma tabela externa na Databricks:
Elimine uma tabela externa
Para descartar uma tabela, você deve ser seu proprietário ou ter o privilégio MANAGE
na tabela. Para eliminar uma tabela externa, execute o seguinte comando SQL:
DROP TABLE IF EXISTS catalog_name.schema_name.table_name;
O Unity Catalog não exclui os dados subjacentes no armazenamento em nuvem quando o senhor exclui uma tabela externa. Você deve excluir diretamente os arquivos de dados subjacentes se precisar remover os dados associados à tabela.
Exemplo de notebook: Criar tabelas externas
O senhor pode usar o exemplo de Notebook a seguir para criar um catálogo, um esquema e uma tabela externa e para gerenciar as permissões neles.