Pular para o conteúdo principal

Expandir e ler arquivos compactados em Zip

É possível utilizar o comando Bash “ unzip ” para expandir arquivos compactados Zip (.zip) ou diretórios de arquivos. O comando mágico Databricks “ %sh ” permite a execução de código Bash arbitrário, incluindo o comando “ unzip ”.

O Apache Spark fornece codecs nativos para interagir com arquivos Parquet compactados. A maioria dos arquivos Parquet gravados pela Databricks termina com .snappy.parquet, indicando que eles usam compressão rápida.

Baixe e descompacte o arquivo.

Utilize curl para download o arquivo compactado e, em seguida, unzip para expandir os dados. O exemplo a seguir utiliza um arquivo compactado CSV baixado da Internet. Consulte os dados baixados da Internet.

Bash
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Mover o arquivo para um volume

Agora, mova o arquivo expandido para um volume do EFI ( Unity Catalog ):

Python
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

Neste exemplo, os dados de downloads possuem um comentário na primeira linha e um cabeçalho na segunda. Agora que você moveu e expandiu as opções padrão do uso de dados para ler arquivos CSV, por exemplo:

Python
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)