Expandir e ler arquivos compactados em Zip
É possível utilizar o comando Bash “ unzip ” para expandir arquivos compactados Zip (.zip) ou diretórios de arquivos. O comando mágico Databricks “ %sh ” permite a execução de código Bash arbitrário, incluindo o comando “ unzip ”.
O Apache Spark fornece codecs nativos para interagir com arquivos Parquet compactados. A maioria dos arquivos Parquet gravados pela Databricks termina com .snappy.parquet, indicando que eles usam compressão rápida.
Baixe e descompacte o arquivo.
Utilize curl para download o arquivo compactado e, em seguida, unzip para expandir os dados. O exemplo a seguir utiliza um arquivo compactado CSV baixado da Internet. Consulte os dados baixados da Internet.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Mover o arquivo para um volume
Agora, mova o arquivo expandido para um volume do EFI ( Unity Catalog ):
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
Neste exemplo, os dados de downloads possuem um comentário na primeira linha e um cabeçalho na segunda. Agora que você moveu e expandiu as opções padrão do uso de dados para ler arquivos CSV, por exemplo:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)