Tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames

Este tutorial mostra aos senhores como carregar e transformar dados usando o Apache Spark Python (PySpark) DataFrame API, o Apache Spark Scala DataFrame API e o SparkR SparkDataFrame API em Databricks.

Ao final deste tutorial, você entenderá o que é um DataFrame e conhecerá as seguintes tarefas:

Python
Scala
R

Definir variáveis e copiar dados públicos para um volume do Unity Catalog
Criar um DataFrame com o Python
Carregar dados em um DataFrame de um arquivo CSV
Ver e interagir com um DataFrame
Salvar o DataFrame
Executar queries SQL no PySpark

Consulte também a referência da API do Apache Spark PySpark.

O que é um DataFrame?

DataFrame é uma estrutura de dados bidimensional rotulada com colunas de tipos variados. Imagine o DataFrame como uma planilha, uma tabela SQL ou um dicionário de objetos em série. Os DataFrames do Apache Spark oferecem um conjunto abrangente de funções (selecionar, filtrar, unir, agregar colunas) que permitem que você resolva problemas comuns de análise de dados de forma simples.

Os DataFrames do Apache Spark são uma abstração criada sobre os Resilient Distributed Datasets (RDDs). Os DataFrames do Spark e o Spark SQL utilizam um mecanismo de planejamento e otimização unificado, permitindo que você tenha um desempenho quase idêntico em todas as linguagens compatíveis com o o Databricks (Python, SQL, Scala e R).

Requisitos

Para concluir o tutorial a seguir, você precisa atender aos seguintes requisitos:

Para usar os exemplos neste tutorial, seu workspace deve ter o Unity Catalog habilitado.
Os exemplos deste tutorial usam um volume do Unity Catalog para armazenar dados de amostra. Para usar esses exemplos, crie um volume e use os nomes de catálogo, esquema e volume desse volume para definir o caminho do volume usado pelos exemplos.
O senhor deve ter as seguintes permissões no Unity Catalog:
- READ VOLUME e WRITE VOLUME para o volume usado neste tutorial.
- USE SCHEMA para o esquema usado neste tutorial
- USE CATALOG para o catálogo usado neste tutorial
Para definir essas permissões, consulte o administrador do Databricks ou os privilégios e objetos protegidos do Unity Catalog.

dica

Para obter um Notebook completo para este artigo, consulte DataFrame tutorial Notebook.

Etapa 1: Definir variáveis e carregar o arquivo CSV

Esta etapa define variáveis para uso neste tutorial e, em seguida, carrega um arquivo CSV contendo dados de nomes de bebês de health.data.ny.gov no volume do Unity Catalog.

Abra um novo Notebook clicando no ícone . Para saber como navegar pelo Databricks Notebook, consulte Personalizar a aparência do Notebook.
Copie e cole o código a seguir na nova célula vazia do Notebook. Substitua <catalog-name>, <schema-name> e <volume-name> pelos nomes de catálogo, esquema e volume de um volume do Unity Catalog. Substitua <table_name> por um nome de tabela de sua escolha. O senhor carregará os dados do nome do bebê nessa tabela mais adiante neste tutorial.

Python
Scala
R

Python
catalog = "<catalog_name>"
schema = "<schema_name>"
volume = "<volume_name>"
download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
file_name = "rows.csv"
table_name = "<table_name>"
path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume
path_table = catalog + "." + schema
print(path_table) # Show the complete path
print(path_volume) # Show the complete path

Scala
val catalog = "<catalog_name>"
val schema = "<schema_name>"
val volume = "<volume_name>"
val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
val fileName = "rows.csv"
val tableName = "<table_name>"
val pathVolume = s"/Volumes/$catalog/$schema/$volume"
val pathTable = s"$catalog.$schema"
print(pathVolume) // Show the complete path
print(pathTable) // Show the complete path

R
catalog <- "<catalog_name>"
schema <- "<schema_name>"
volume <- "<volume_name>"
download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
file_name <- "rows.csv"
table_name <- "<table_name>"
path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "")
path_table <- paste(catalog, ".", schema, sep = "")
print(path_volume) # Show the complete path
print(path_table) # Show the complete path

Pressione Shift+Enter para executar a célula e criar uma nova célula em branco.
Copie e cole o código a seguir na nova célula vazia do Notebook. Esse código copia o arquivo rows.csv de health.data.ny.gov para o volume do Unity Catalog usando o comando Databricks dbutuils.

Python
Scala
R

Python
dbutils.fs.cp(f"{download_url}", f"{path_volume}/{file_name}")

Scala
dbutils.fs.cp(downloadUrl, s"$pathVolume/$fileName")

R
dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Etapa 2: Criar um DataFrame

Esta etapa cria um DataFrame chamado df1 com dados de teste e exibe o conteúdo dele.

Copie e cole o código a seguir na nova célula vazia do notebook. Esse código cria o DataFrame com dados de teste e, em seguida, exibe o conteúdo e o esquema do DataFrame.

Python
Scala
R

Python
data = [[2021, "test", "Albany", "M", 42]]
columns = ["Year", "First_Name", "County", "Sex", "Count"]

df1 = spark.createDataFrame(data, schema="Year int, First_Name STRING, County STRING, Sex STRING, Count int")
display(df1) # The display() method is specific to Databricks notebooks and provides a richer visualization.
# df1.show() The show() method is a part of the Apache Spark DataFrame API and provides basic visualization.

Scala
val data = Seq((2021, "test", "Albany", "M", 42))
val columns = Seq("Year", "First_Name", "County", "Sex", "Count")

val df1 = data.toDF(columns: _*)
display(df1) // The display() method is specific to Databricks notebooks and provides a richer visualization.
// df1.show() The show() method is a part of the Apache Spark DataFrame API and provides basic visualization.

R
# Load the SparkR package that is already preinstalled on the cluster.
library(SparkR)

data <- data.frame(
  Year = as.integer(c(2021)),
  First_Name = c("test"),
  County = c("Albany"),
  Sex = c("M"),
  Count = as.integer(c(42))
)

df1 <- createDataFrame(data)
display(df1) # The display() method is specific to Databricks notebooks and provides a richer visualization.
# head(df1) The head() method is a part of the Apache SparkR DataFrame API and provides basic visualization.

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Etapa 3: Carregar dados em um DataFrame a partir de um arquivo CSV

Esta etapa cria um DataFrame chamado df_csv do arquivo CSV que você carregou anteriormente em seu volume do Unity Catalog. Consulte spark.read.csv.

Copie e cole o código a seguir na nova célula vazia do notebook. Esse código carrega dados de nomes de bebês no DataFrame df_csv do arquivo CSV e exibe o conteúdo do DataFrame.

Python
Scala
R

Python
df_csv = spark.read.csv(f"{path_volume}/{file_name}",
    header=True,
    inferSchema=True,
    sep=",")
display(df_csv)

Scala
val dfCsv = spark.read
    .option("header", "true")
    .option("inferSchema", "true")
    .option("delimiter", ",")
    .csv(s"$pathVolume/$fileName")

display(dfCsv)

R
df_csv <- read.df(paste(path_volume, "/", file_name, sep=""),
    source="csv",
    header = TRUE,
    inferSchema = TRUE,
    delimiter = ",")

display(df_csv)

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Você pode carregar dados de vários formatos de arquivo compatíveis.

Etapa 4: visualize e interaja com seu DataFrame

Veja e interaja com os DataFrames de nomes de bebês usando os seguintes métodos.

Imprimir o esquema do DataFrame

Aprenda como exibir o esquema de um DataFrame do Apache Spark. O Apache Spark utiliza o termo esquema para se referir aos nomes e tipos de dados das colunas no DataFrame.

nota

Databricks usa também o termo esquema para descrever uma coleção de tabelas registradas em um catálogo.

Copie e cole o código a seguir em uma célula vazia do notebook. Esse código exibe o esquema dos seus DataFrames com o método .printSchema() para ver os esquemas dos dois DataFrames, para preparação para unir os dois DataFrames.

Python
Scala
R

Python
df_csv.printSchema()
df1.printSchema()

Scala
dfCsv.printSchema()
df1.printSchema()

R
printSchema(df_csv)
printSchema(df1)

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Renomear coluna no DataFrame

Aprenda a renomear uma coluna em um DataFrame.

Copie e cole o código a seguir em uma célula vazia do notebook. Esse código renomeia uma coluna no DataFrame df1_csv para corresponder à respectiva coluna no DataFrame df1. Esse código usa o método withColumnRenamed() do Apache Spark.

Python
Scala
R

Python
df_csv = df_csv.withColumnRenamed("First Name", "First_Name")
df_csv.printSchema

Scala
val dfCsvRenamed = dfCsv.withColumnRenamed("First Name", "First_Name")
// when modifying a DataFrame in Scala, you must assign it to a new variable
dfCsvRenamed.printSchema()

R
df_csv <- withColumnRenamed(df_csv, "First Name", "First_Name")
printSchema(df_csv)

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Combinar DataFrames

Saiba como criar um novo DataFrame que adiciona as linhas de um DataFrame a outro.

Copie e cole o código a seguir em uma célula vazia do notebook. Este código usa o método union() do Apache Spark para combinar o conteúdo do seu primeiro DataFrame df com o DataFrame df_csv contendo os dados de nomes de bebês carregados do arquivo CSV.

Python
Scala
R

Python
df = df1.union(df_csv)
display(df)

Scala
val df = df1.union(dfCsvRenamed)
display(df)

R
display(df <- union(df1, df_csv))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Filtrar linhas em um DataFrame

Descubra os nomes de bebês mais populares em seu conjunto de dados filtrando as linhas com os métodos .filter() ou .where() do Apache Spark. Use a filtragem para selecionar um subconjunto de linhas a serem retornadas ou modificadas em um DataFrame. Não há diferença no desempenho ou sintaxe, como visto nos exemplos a seguir.

Usando .filter () método

Copie e cole o seguinte código em uma célula vazia do Notebook. Este código usa o método .filter() do Apache Spark para exibir as linhas no DataFrame com uma contagem maior que 50.

Python
Scala
R

Python
display(df.filter(df["Count"] > 50))

Scala
display(df.filter(df("Count") > 50))

R
display(filteredDF <- filter(df, df$Count > 50))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Usando .where () método

Copie e cole o seguinte código em uma célula vazia do Notebook. Este código usa o método .where() do Apache Spark para exibir as linhas no DataFrame com uma contagem maior que 50.

Python
Scala
R

Python
display(df.where(df["Count"] > 50))

Scala
display(df.where(df("Count") > 50))

R
display(filtered_df <- where(df, df$Count > 50))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Selecionar colunas de um DataFrame e ordená-las por frequência

Aprenda a frequência de nomes de bebês com o método select() para especificar as colunas do DataFrame a serem retornadas. Use as funções orderby e desc do Apache Spark para ordenar os resultados.

O módulo PySpark.sql para Apache Spark oferece suporte a funções SQL . Entre essas funções que usamos neste tutorial estão as funções orderBy(), desc() e expr() do Apache Spark. Você habilita o uso dessas funções importando-as para sua sessão conforme necessário.

Copie e cole o código a seguir em uma célula vazia do notebook. Esse código importa a função desc() e, em seguida, usa o método select() do Apache Spark e as funções orderBy() e desc() do Apache Spark para exibir os nomes mais comuns e suas contagens em ordem decrescente.

Python
Scala
R

Python
from pyspark.sql.functions import desc
display(df.select("First_Name", "Count").orderBy(desc("Count")))

Scala
import org.apache.spark.sql.functions.desc
display(df.select("First_Name", "Count").orderBy(desc("Count")))

R
display(arrange(select(df, df$First_Name, df$Count), desc(df$Count)))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Criar um subconjunto DataFrame

Aprenda como criar um DataFrame de subconjunto com um DataFrame existente.

Copie e cole o código a seguir em uma célula vazia do notebook. Esse código usa o método filter do Apache Spark para criar um novo DataFrame restringindo os dados por ano, contagem e sexo. Ele usa o método select() do Apache Spark para limitar as colunas. Usa também as funções orderBy() e desc() do Apache Spark para classificar o novo DataFrame por contagem.

Python
Scala
R

Python
subsetDF = df.filter((df["Year"] == 2009) & (df["Count"] > 100) & (df["Sex"] == "F")).select("First_Name", "County", "Count").orderBy(desc("Count"))
display(subsetDF)

Scala
val subsetDF = df.filter((df("Year") === 2009) && (df("Count") > 100) && (df("Sex") === "F")).select("First_Name", "County", "Count").orderBy(desc("Count"))

display(subsetDF)

R
subsetDF <- select(filter(df, (df$Count > 100) & (df$year == 2009) & df["Sex"] == "F")), "First_Name", "County", "Count")
display(subsetDF)

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Etapa 5: Salvar o DataFrame

Aprenda a salvar um DataFrame,. O senhor pode salvar seu DataFrame em uma tabela ou gravar o DataFrame em um arquivo ou em vários arquivos.

Salvar o DataFrame em uma tabela

O Databricks usa o formato Delta Lake para todas as tabelas por padrão. Para salvar seu DataFrame, é necessário ter privilégio para CREATE tabela no catálogo e no esquema.

Copie e cole o código a seguir em uma célula vazia do notebook. Este código salva o conteúdo do DataFrame em uma tabela usando a variável que você definiu no início deste tutorial.

Python
Scala
R

Python
df.write.mode("overwrite").saveAsTable(f"{path_table}.{table_name}")

Scala
df.write.mode("overwrite").saveAsTable(s"$pathTable" + "." + s"$tableName")

R
saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

A maioria dos aplicativos do Apache Spark trabalha com grandes conjuntos de dados e de forma distribuída. O Apache Spark grava um diretório de arquivos em vez de um único arquivo. O Delta Lake divide as pastas e arquivos do Parquet. Muitos sistemas de dados conseguem ler esses diretórios de arquivos. A Databricks recomenda o uso de tabelas em vez de caminhos de arquivo para a maioria das aplicações.

Salvar o DataFrame em arquivos JSON

Copie e cole o código a seguir em uma célula vazia do Notebook. Esse código salva o DataFrame em um diretório de arquivos JSON.

Python
Scala
R

Python
df.write.format("json").mode("overwrite").save("/tmp/json_data")

Scala
df.write.format("json").mode("overwrite").save("/tmp/json_data")

R
write.df(df, path = "/tmp/json_data", source = "json", mode = "overwrite")

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Ler o DataFrame de um arquivo JSON

Saiba como usar o método Apache Spark spark.read.format() para read.json dados de um diretório em um DataFrame.

Copie e cole o código a seguir em uma célula vazia do Notebook. Esse código exibe os arquivos JSON que o senhor salvou no exemplo anterior.

Python
Scala
R

Python
display(spark.read.format("json").json("/tmp/json_data"))

Scala
display(spark.read.format("json").json("/tmp/json_data"))

R
display(read.json("/tmp/json_data"))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Tarefa adicional: execução SQL consultas em PySpark, Scala, e R

O DataFrames do Apache Spark oferece as seguintes opções para combinar SQL com PySpark, Scala e R. Você pode executar o código a seguir no mesmo notebook que criou para este tutorial.

Especificar uma coluna como uma consulta SQL

Aprenda como usar o método selectExpr() do Apache Spark. Essa é uma variante do método select() que aceita expressões SQL e retorna um DataFrame atualizado. Este método permite usar uma expressão SQL, como upper.

Copie e cole o código a seguir em uma célula vazia do notebook. Esse código usa o método selectExpr() do Apache Spark e a expressão upper do SQL para converter uma coluna de strings em maiúsculas (e renomear a coluna).

Python
Scala
R

Python
display(df.selectExpr("Count", "upper(County) as big_name"))

Scala
display(df.selectExpr("Count", "upper(County) as big_name"))

R
display(df_selected <- selectExpr(df, "Count", "upper(County) as big_name"))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

Use `expr()` para usar a sintaxe SQL para uma coluna

Saiba como importar e usar a função expr() do Apache Spark para usar a sintaxe SQL em qualquer local onde haveria especificação de uma coluna.

Copie e cole o código a seguir em uma célula vazia do notebook. Esse código importa a função expr() e, em seguida, usa a função expr() do Apache Spark e a expressão lower do SQL para converter uma coluna de strings em minúsculas (e renomear a coluna).

Python
Scala
R

Python
from pyspark.sql.functions import expr
display(df.select("Count", expr("lower(County) as little_name")))

Scala
import org.apache.spark.sql.functions.{col, expr}
// Scala requires us to import the col() function as well as the expr() function

display(df.select(col("Count"), expr("lower(County) as little_name")))

R
display(df_selected <- selectExpr(df, "Count", "lower(County) as little_name"))
# expr() function is not supported in R, selectExpr in SparkR replicates this functionality

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

execução de uma consulta arbitrária SQL usando spark.sql() função

Saiba como usar a função spark.sql() do Apache Spark para executar consultas SQL arbitrárias.

Copie e cole o código a seguir em uma célula vazia do notebook. Esse código usa a função spark.sql() do Apache Spark para consultar uma tabela SQL usando a sintaxe SQL.

Python
Scala
R

Python
display(spark.sql(f"SELECT * FROM {path_table}.{table_name}"))

Scala
display(spark.sql(s"SELECT * FROM $pathTable.$tableName"))

R
display(sql(paste("SELECT * FROM", path_table, ".", table_name)))

Pressione Shift+Enter para executar a célula e depois passar para a próxima célula.

DataFrame tutorial Caderno de anotações

Os notebooks a seguir incluem os exemplos de consultas deste tutorial.

Python
Scala
R

DataFrames tutorial usando Python

Open notebook in new tab

Tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames

O que é um DataFrame?

Requisitos

Etapa 1: Definir variáveis e carregar o arquivo CSV

Etapa 2: Criar um DataFrame

Etapa 3: Carregar dados em um DataFrame a partir de um arquivo CSV

Etapa 4: visualize e interaja com seu DataFrame

Imprimir o esquema do DataFrame

Renomear coluna no DataFrame

Combinar DataFrames

Filtrar linhas em um DataFrame

Usando .filter () método

Usando .where () método

Selecionar colunas de um DataFrame e ordená-las por frequência

Criar um subconjunto DataFrame

Etapa 5: Salvar o DataFrame

Salvar o DataFrame em uma tabela

Salvar o DataFrame em arquivos JSON

Ler o DataFrame de um arquivo JSON

Tarefa adicional: execução SQL consultas em PySpark, Scala, e R

Especificar uma coluna como uma consulta SQL

Use `expr()` para usar a sintaxe SQL para uma coluna

execução de uma consulta arbitrária SQL usando spark.sql() função

DataFrame tutorial Caderno de anotações

DataFrames tutorial usando Python

DataFrames tutorial usando Scala

DataFrames tutorial usando R

Recurso adicional

O que é um DataFrame?​

Requisitos​

Etapa 1: Definir variáveis e carregar o arquivo CSV​

Etapa 2: Criar um DataFrame​

Etapa 3: Carregar dados em um DataFrame a partir de um arquivo CSV​

Etapa 4: visualize e interaja com seu DataFrame​

Imprimir o esquema do DataFrame​

Renomear coluna no DataFrame​

Combinar DataFrames​

Filtrar linhas em um DataFrame​

Usando .filter () método​

Usando .where () método​

Selecionar colunas de um DataFrame e ordená-las por frequência​

Criar um subconjunto DataFrame​

Etapa 5: Salvar o DataFrame​

Salvar o DataFrame em uma tabela​

Salvar o DataFrame em arquivos JSON​

Ler o DataFrame de um arquivo JSON​

Tarefa adicional: execução SQL consultas em PySpark, Scala, e R​

Especificar uma coluna como uma consulta SQL​

Use expr() para usar a sintaxe SQL para uma coluna​

execução de uma consulta arbitrária SQL usando spark.sql() função​

DataFrame tutorial Caderno de anotações​

DataFrames tutorial usando Python

DataFrames tutorial usando Scala

DataFrames tutorial usando R

Recurso adicional​

O que é um DataFrame?

Requisitos

Etapa 1: Definir variáveis e carregar o arquivo CSV

Etapa 2: Criar um DataFrame

Etapa 3: Carregar dados em um DataFrame a partir de um arquivo CSV

Etapa 4: visualize e interaja com seu DataFrame

Imprimir o esquema do DataFrame

Renomear coluna no DataFrame

Combinar DataFrames

Filtrar linhas em um DataFrame

Usando .filter () método

Usando .where () método

Selecionar colunas de um DataFrame e ordená-las por frequência

Criar um subconjunto DataFrame

Etapa 5: Salvar o DataFrame

Salvar o DataFrame em uma tabela

Salvar o DataFrame em arquivos JSON

Ler o DataFrame de um arquivo JSON

Tarefa adicional: execução SQL consultas em PySpark, Scala, e R

Especificar uma coluna como uma consulta SQL

Use `expr()` para usar a sintaxe SQL para uma coluna

execução de uma consulta arbitrária SQL usando spark.sql() função

DataFrame tutorial Caderno de anotações

Recurso adicional