Carregar uso de dados COPY INTO com volumes Unity Catalog ou locais externos

Aprenda a usar COPY INTO para ingerir dados para Unity Catalog gerenciado ou tabelas externas de qualquer fonte e formato de arquivo suportado por COPY INTO. O Unity Catalog adiciona novas opções para configurar o acesso seguro aos dados brutos. Você pode usar volumes do Unity Catalog ou locais externos para acessar dados no armazenamento de objetos cloud .

A Databricks recomenda o uso de volumes para acessar arquivos no armazenamento em nuvem como parte do processo de ingestão usando COPY INTO. Para obter mais informações sobre as recomendações de uso de volumes e locais externos, consulte Unity Catalog best practices.

Este artigo descreve como usar o comando COPY INTO para carregar dados de um bucket Google Cloud Storage (GCS) em uma tabela em Databricks SQL.

As etapas deste artigo pressupõem que o administrador tenha configurado um volume Unity Catalog ou um local externo para que o senhor possa acessar os arquivos de origem em GCS.

Antes de começar

Antes de usar o site COPY INTO para carregar dados de um volume do Unity Catalog ou de um caminho de armazenamento de objetos na nuvem definido como um local externo do Unity Catalog, o senhor deve ter o seguinte:

O privilégio READ VOLUME em um volume ou o privilégio READ FILES em um local externo.

Para obter mais informações sobre a criação de volumes, consulte O que são volumes Unity Catalog?

Para obter mais informações sobre a criação de locais externos, consulte Criar um local externo para conectar o armazenamento em nuvem a Databricks.
O caminho para seus dados de origem na forma de um URL de armazenamento de objetos na nuvem ou um caminho de volume.

Exemplo de URL de armazenamento de objetos na nuvem: gs://landing-bucket/raw-data/json.

Exemplo de caminho de volume: /Volumes/quickstart_catalog/quickstart_schema/quickstart_volume/raw_data/json.
O privilégio USE SCHEMA no esquema que contém a tabela de destino.
O privilégio USE CATALOG no catálogo principal.

Para obter mais informações sobre os privilégios do site Unity Catalog, consulte Unity Catalog privileges and securable objects.

Carregar dados de um volume

Para carregar dados de um volume do Unity Catalog, o senhor deve ter o privilégio READ VOLUME. Os privilégios de volume se aplicam a todos os diretórios aninhados no volume especificado.

Por exemplo, se o senhor tiver acesso a um volume com o caminho /Volumes/quickstart_catalog/quickstart_schema/quickstart_volume/, os seguintes comandos serão válidos:

SQL
COPY INTO landing_table
FROM '/Volumes/quickstart_catalog/quickstart_schema/quickstart_volume/raw_data'
FILEFORMAT = PARQUET;

COPY INTO json_table
FROM '/Volumes/quickstart_catalog/quickstart_schema/quickstart_volume/raw_data/json'
FILEFORMAT = JSON;

Opcionalmente, você também pode usar um caminho de volume com o esquema dbfs. Por exemplo, os seguintes comandos também são válidos:

SQL
COPY INTO landing_table
FROM 'dbfs:/Volumes/quickstart_catalog/quickstart_schema/quickstart_volume/raw_data'
FILEFORMAT = PARQUET;

COPY INTO json_table
FROM 'dbfs:/Volumes/quickstart_catalog/quickstart_schema/quickstart_volume/raw_data/json'
FILEFORMAT = JSON;

Carregar uso de dados em um local externo

O exemplo a seguir carrega dados do GCS em uma tabela usando locais externos do Unity Catalog para fornecer acesso ao código-fonte.

SQL
COPY INTO my_json_data
FROM 'gs://landing-bucket/json-data'
FILEFORMAT = JSON;

Herança de privilégios de localização externa

Os privilégios de localização externa se aplicam a todos os diretórios aninhados no local especificado.

Por exemplo, se o senhor tiver acesso a um local externo definido com o URL gs://landing-bucket/raw-data, os seguintes comandos serão válidos:

SQL
COPY INTO landing_table
FROM 'gs://landing-bucket/raw-data'
FILEFORMAT = PARQUET;

COPY INTO json_table
FROM 'gs://landing-bucket/raw-data/json'
FILEFORMAT = JSON;

As permissões nesse local externo não concedem nenhum privilégio em diretórios acima ou paralelos ao local especificado. Por exemplo, nenhum dos comandos a seguir é válido :

SQL
COPY INTO parent_table
FROM 'gs://landing-bucket'
FILEFORMAT = PARQUET;

COPY INTO sibling_table
FROM 'gs://landing-bucket/json-data'
FILEFORMAT = JSON;

Namespace de três níveis para tabelas de destino

O senhor pode direcionar uma tabela do Unity Catalog usando um identificador de três camadas (<catalog_name>.<database_name>.<table_name>). O senhor pode usar os comandos USE CATALOG <catalog_name> e USE <database_name> para definir o catálogo e o banco de dados do default para a consulta ou o Notebook atual.

Antes de começar​

Carregar dados de um volume​

Carregar uso de dados em um local externo​

Herança de privilégios de localização externa​

Namespace de três níveis para tabelas de destino​

Antes de começar

Carregar dados de um volume

Carregar uso de dados em um local externo

Herança de privilégios de localização externa

Namespace de três níveis para tabelas de destino