O senhor começa a usar o site COPY INTO para carregar dados

O comando SQL COPY INTO permite carregar dados de um local de arquivo para uma tabela Delta. Esta é uma operação repetível e idempotente. Os arquivos no local de origem que já foram carregados serão ignorados.

COPY INTO Oferece estas funcionalidades:

Filtros de arquivos ou pastas facilmente configuráveis a partir de armazenamento cloud , incluindo volumes S3, ADLS, ABFS, GCS e Unity Catalog .
Suporte para múltiplos formatos de arquivo de origem: CSV, JSON, XML, Avro, ORC, Parquet, texto e arquivos binários.
Processamento de arquivos exatamente uma vez (idempotente) por default.
Inferência, mapeamento, fusão e evolução do esquema da tabela de destino.

atenção

COPY INTO Respeita a configuração workspace para vetores de exclusão. Se ativado, os vetores de exclusão são habilitados na tabela de destino quando COPY INTO é executado em um SQL warehouse ou compute executando Databricks Runtime 14.0 ou superior. Após a ativação dos vetores de exclusão, eles bloqueiam as consultas a uma tabela no Databricks Runtime 11.3 LTS e versões anteriores. Consulte Vetores de exclusão no Databricks e Ativar vetores de exclusão automaticamente.

Antes de começar

Um administrador do account deve configurar o acesso aos dados no armazenamento de objetos na nuvem antes que os usuários possam carregar o uso de dados COPY INTO.

Exemplo: Carregar dados em uma tabela Delta Lake sem esquema.

nota

Para utilizar este recurso, é necessário ter Databricks Runtime 11.3 LTS ou superior.

Você pode criar tabelas Delta de espaço reservado vazias para que o esquema seja inferido durante um comando COPY INTO definindo mergeSchema como true em COPY_OPTIONS:

SQL
CREATE TABLE IF NOT EXISTS my_table
[COMMENT <table-description>]
[TBLPROPERTIES (<table-properties>)];

COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = <format>
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true');

A instrução SQL é idempotente e pode ser agendada para execução, de forma a ingerir dados exatamente uma vez em uma tabela Delta .

nota

A tabela Delta vazia não é utilizável fora de COPY INTO. INSERT INTO e MERGE INTO não são suportados para gravar dados em tabelas Delta sem esquema. Após os dados serem inseridos na tabela com COPY INTO, a tabela torna-se consultável.

Consulte Criar tabelas de destino para COPY INTO.

Exemplo: Defina o esquema e carregue os dados em uma tabela do Delta Lake.

O exemplo a seguir cria uma tabela Delta e usa o comando SQL COPY INTO para carregar dados de amostra do conjunto de dadosDatabricks na tabela. Você pode executar o código de exemplo Python, R, Scala ou SQL a partir de um Notebook conectado a um cluster Databricks . Você também pode executar o código SQL a partir de uma consulta associada a um SQL warehouse no Databricks SQL.

SQL
Python
R
Scala

SQL
DROP TABLE IF EXISTS default.loan_risks_upload;

CREATE TABLE default.loan_risks_upload (
  loan_id BIGINT,
  funded_amnt INT,
  paid_amnt DOUBLE,
  addr_state STRING
);

COPY INTO default.loan_risks_upload
FROM '/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet'
FILEFORMAT = PARQUET;

SELECT * FROM default.loan_risks_upload;

-- Result:
-- +---------+-------------+-----------+------------+
-- | loan_id | funded_amnt | paid_amnt | addr_state |
-- +=========+=============+===========+============+
-- | 0       | 1000        | 182.22    | CA         |
-- +---------+-------------+-----------+------------+
-- | 1       | 1000        | 361.19    | WA         |
-- +---------+-------------+-----------+------------+
-- | 2       | 1000        | 176.26    | TX         |
-- +---------+-------------+-----------+------------+
-- ...

Python
table_name = 'default.loan_risks_upload'
source_data = '/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet'
source_format = 'PARQUET'

spark.sql("DROP TABLE IF EXISTS " + table_name)

spark.sql("CREATE TABLE " + table_name + " (" \
  "loan_id BIGINT, " + \
  "funded_amnt INT, " + \
  "paid_amnt DOUBLE, " + \
  "addr_state STRING)"
)

spark.sql("COPY INTO " + table_name + \
  " FROM '" + source_data + "'" + \
  " FILEFORMAT = " + source_format
)

loan_risks_upload_data = spark.sql("SELECT * FROM " + table_name)

display(loan_risks_upload_data)

'''
Result:
+---------+-------------+-----------+------------+
| loan_id | funded_amnt | paid_amnt | addr_state |
+=========+=============+===========+============+
| 0       | 1000        | 182.22    | CA         |
+---------+-------------+-----------+------------+
| 1       | 1000        | 361.19    | WA         |
+---------+-------------+-----------+------------+
| 2       | 1000        | 176.26    | TX         |
+---------+-------------+-----------+------------+
...
'''

R
library(SparkR)
sparkR.session()

table_name = "default.loan_risks_upload"
source_data = "/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet"
source_format = "PARQUET"

sql(paste("DROP TABLE IF EXISTS ", table_name, sep = ""))

sql(paste("CREATE TABLE ", table_name, " (",
  "loan_id BIGINT, ",
  "funded_amnt INT, ",
  "paid_amnt DOUBLE, ",
  "addr_state STRING)",
  sep = ""
))

sql(paste("COPY INTO ", table_name,
  " FROM '", source_data, "'",
  " FILEFORMAT = ", source_format,
  sep = ""
))

loan_risks_upload_data = tableToDF(table_name)

display(loan_risks_upload_data)

# Result:
# +---------+-------------+-----------+------------+
# | loan_id | funded_amnt | paid_amnt | addr_state |
# +=========+=============+===========+============+
# | 0       | 1000        | 182.22    | CA         |
# +---------+-------------+-----------+------------+
# | 1       | 1000        | 361.19    | WA         |
# +---------+-------------+-----------+------------+
# | 2       | 1000        | 176.26    | TX         |
# +---------+-------------+-----------+------------+
# ...

Scala
val table_name = "default.loan_risks_upload"
val source_data = "/databricks-datasets/learning-spark-v2/loans/loan-risks.snappy.parquet"
val source_format = "PARQUET"

spark.sql("DROP TABLE IF EXISTS " + table_name)

spark.sql("CREATE TABLE " + table_name + " (" +
  "loan_id BIGINT, " +
  "funded_amnt INT, " +
  "paid_amnt DOUBLE, " +
  "addr_state STRING)"
)

spark.sql("COPY INTO " + table_name +
  " FROM '" + source_data + "'" +
  " FILEFORMAT = " + source_format
)

val loan_risks_upload_data = spark.table(table_name)

display(loan_risks_upload_data)

/*
Result:
+---------+-------------+-----------+------------+
| loan_id | funded_amnt | paid_amnt | addr_state |
+=========+=============+===========+============+
| 0       | 1000        | 182.22    | CA         |
+---------+-------------+-----------+------------+
| 1       | 1000        | 361.19    | WA         |
+---------+-------------+-----------+------------+
| 2       | 1000        | 176.26    | TX         |
+---------+-------------+-----------+------------+
...
*/

Para concluir a limpeza, execute o seguinte código que exclui a tabela.

Python
R
Scala
SQL

Python
spark.sql("DROP TABLE " + table_name)

R
sql(paste("DROP TABLE ", table_name, sep = ""))

Scala
spark.sql("DROP TABLE " + table_name)

SQL
DROP TABLE default.loan_risks_upload

Limpe arquivos de metadados

O senhor pode executar vacuum para limpar os arquivos de metadados não referenciados criados por COPY INTO em Databricks Runtime 15.2 e acima.

Referência

COPY INTO

Saber mais

Carregar uso de dados COPY INTO com volumes Unity Catalog ou locais externos
Para obter padrões de uso comuns, incluindo exemplos de várias operações COPY INTO na mesma tabela Delta, consulte Padrões comuns de carregamento de dados usando COPY INTO.
Para ingerir uso de dados semiestruturados do tipo VARIANT, consulte Use COPY INTO com variant.

Antes de começar​

Exemplo: Carregar dados em uma tabela Delta Lake sem esquema.​

Exemplo: Defina o esquema e carregue os dados em uma tabela do Delta Lake.​

Limpe arquivos de metadados​

Referência​

Saber mais​