Expandir e ler arquivos compactados em Zip
É possível utilizar o comando Bash “ unzip
” para expandir arquivos compactados Zip (.zip
) ou diretórios de arquivos. O comando mágico Databricks “ %sh
” permite a execução de código Bash arbitrário, incluindo o comando “ unzip
”.
O Apache Spark fornece codecs nativos para interagir com arquivos Parquet compactados. A maioria dos arquivos Parquet gravados pela Databricks termina com .snappy.parquet
, indicando que eles usam compressão rápida.
Baixe e descompacte o arquivo.
Utilize curl
para download o arquivo compactado e, em seguida, unzip
para expandir os dados. O exemplo a seguir utiliza um arquivo compactado CSV baixado da Internet. Consulte os dados baixados da Internet.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Mover o arquivo para um volume
Agora, mova o arquivo expandido para um volume do EFI ( Unity Catalog ):
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
Neste exemplo, os dados de downloads possuem um comentário na primeira linha e um cabeçalho na segunda. Agora que você moveu e expandiu as opções padrão do uso de dados para ler arquivos CSV, por exemplo:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)