Ler arquivos CSV

Este artigo apresenta exemplos de leitura de arquivos CSV com o Databricks usando o Python, Scala, R e SQL.

nota

A Databricks recomenda a funçãoread_files table-valued para que os usuários de SQL leiam arquivos CSV. read_files está disponível em Databricks Runtime 13.3 LTS e acima.

Você também pode usar uma exibição temporária. Se você usar SQL para ler dados CSV diretamente sem usar exibições temporárias ou read_files, as seguintes limitações se aplicam:

O senhor não pode especificar opções de fonte de dados.
- Você não pode especificar o esquema para os dados.

Opções

Você pode configurar várias opções para fontes de dados de arquivos CSV. Consulte os seguintes artigos de referência do Apache Spark para obter as opções de leitura compatíveis:

Python
Scala

Este artigo aborda apenas a leitura de CSV, mas você pode saber mais sobre as opções de gravação compatíveis nos seguintes artigos de referência do Apache Spark:

Python
Scala

Trabalhar com registros CSV malformados

Na leitura de arquivos CSV com um esquema especificado, é possível que os dados dos arquivos não correspondam ao esquema. Por exemplo, um campo contendo o nome da cidade não será analisado como um número inteiro. As consequências dependem do modo em que o analisador for executado:

PERMISSIVE (padrão): são inseridos valores "null" em campos que não puderam ser analisados corretamente
DROPMALFORMED: descarta linhas que contêm campos que não puderam ser analisados
FAILFAST: aborta a leitura se for encontrado algum dado malformado

Para definir o modo, use a opção mode.

Python
diamonds_df = (spark.read
  .format("csv")
  .option("mode", "PERMISSIVE")
  .load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
)

No modo PERMISSIVE é possível inspecionar as linhas que não puderam ser analisadas corretamente com um dos seguintes métodos:

Você pode informar um caminho personalizado para a opção badRecordsPath para registrar registros corrompidos em um arquivo.
Você pode adicionar a coluna _corrupt_record ao esquema informado ao DataFrameReader para revisar registros corrompidos no DataFrame resultante.

nota

A opção badRecordsPath tem precedência sobre _corrupt_record, o que significa que as linhas malformadas gravadas no caminho informado não aparecem no DataFrame resultante.

o comportamento padrão para registros malformados muda ao usar a coluna de dados resgatados.

Localizar linhas malformadas Notebook

Open notebook in new tab

Coluna de dados resgatados

nota

Esse recurso é suportado em Databricks Runtime 8.3 (EoS) e acima.

Ao usar o modo PERMISSIVE, você pode ativar a coluna de dados resgatados para capturar qualquer dado que não tenha sido analisado porque um ou mais campos em um registro apresentam um dos seguintes problemas:

Ausente do esquema informado.
Não corresponde ao tipo de dados do esquema informado.
Tem incompatibilidade de maiúsculas e minúsculas nos nomes de campos no esquema informado.

A coluna de dados resgatados é retornada como um documento JSON contendo as colunas que foram resgatadas e o caminho do arquivo de origem do registro. Para remover o caminho do arquivo de origem da coluna de dados resgatados, você pode definir a configuração SQL spark.conf.set("spark.databricks.sql.rescuedDataColumn.filePath.enabled", "false"). Você pode ativar a coluna de dados resgatados definindo a opção rescuedDataColumn para um nome de coluna na leitura de dados, como _rescued_data com spark.read.option("rescuedDataColumn", "_rescued_data").format("csv").load(<path>).

O analisador CSV suporta três modos ao analisar registros: PERMISSIVE, DROPMALFORMEDe FAILFAST. Quando utilizado junto com rescuedDataColumn, as incompatibilidades de tipo de dados não fazem com que os registros sejam eliminados no modo DROPMALFORMED nem geram um erro no modo FAILFAST. Somente registros corrompidos, ou seja, CSV incompleto ou malformado, são descartados ou geram erros.

Quando rescuedDataColumn é usado no modo PERMISSIVE, as seguintes regras se aplicam a registros corrompidos:

A primeira linha do arquivo (uma linha de cabeçalho ou uma linha de dados) define o comprimento de linha esperado.
Uma linha com um número diferente de colunas é considerada incompleta.
Incompatibilidades de tipo de dados não são consideradas registros corrompidos.
Apenas registros CSV incompletos e malformados são considerados corrompidos e registrados na coluna _corrupt_record ou badRecordsPath.

Exemplo de SQL: Ler arquivo CSV

O exemplo de SQL a seguir faz a leitura de um arquivo CSV usando read_files.

SQL
-- mode "FAILFAST" aborts file parsing with a RuntimeException if malformed lines are encountered
SELECT * FROM read_files(
  's3://<bucket>/<path>/<file>.csv',
  format => 'csv',
  header => true,
  mode => 'FAILFAST')

Exemplos em Scala, R e Python: Ler arquivo CSV

O Notebook a seguir mostra como ler um arquivo, exibir dados de amostra e imprimir o esquema de dados usando Scala, R e Python. Os exemplos desta seção usam os diamantes dataset. Especifique o caminho para o site dataset, bem como as opções que o senhor desejar.

Leia CSV files Notebook

Open notebook in new tab

Exemplo: Especificar esquema

Quando o esquema do arquivo CSV é conhecido, você pode especificar o esquema desejado para o leitor de CSV com a opção schema.

Ler arquivos CSV com o schema Notebook

Open notebook in new tab

Exemplo de SQL usando read_files:

SQL
SELECT * FROM read_files(
  's3://<bucket>/<path>/<file>.csv',
  format => 'csv',
  header => false,
  schema => 'id string, date date, event_time timestamp')

Exemplo: armadilhas da leitura de um subconjunto de colunas

O comportamento do analisador de CSV depende do conjunto de colunas que forem lidas. Se o esquema especificado estiver incorreto, os resultados podem diferir consideravelmente, dependendo do subconjunto de colunas acessado. O notebook a seguir apresenta as armadilhas mais comuns.

Advertências sobre a leitura de um subconjunto de colunas de um arquivo CSV Notebook

Open notebook in new tab

Opções​

Trabalhar com registros CSV malformados​

Localizar linhas malformadas Notebook

Coluna de dados resgatados​

Exemplo de SQL: Ler arquivo CSV​

Exemplos em Scala, R e Python: Ler arquivo CSV​

Leia CSV files Notebook

Exemplo: Especificar esquema​

Ler arquivos CSV com o schema Notebook

Exemplo: armadilhas da leitura de um subconjunto de colunas​

Advertências sobre a leitura de um subconjunto de colunas de um arquivo CSV Notebook

Opções

Trabalhar com registros CSV malformados

Coluna de dados resgatados

Exemplo de SQL: Ler arquivo CSV

Exemplos em Scala, R e Python: Ler arquivo CSV

Exemplo: Especificar esquema

Exemplo: armadilhas da leitura de um subconjunto de colunas