Zip圧縮ファイルの展開と読み取り
unzip
Bash コマンドを使用して、Zip (.zip
) 圧縮ファイルまたはファイルのディレクトリを展開できます。Databricks %sh
マジック コマンド を使用すると、 unzip
コマンドを含む任意の Bash コードを実行できます。
Apache Spark には、圧縮された Parquet ファイルを操作するためのネイティブ コーデックが用意されています。 Databricks によって記述されたほとんどの Parquet ファイルは、スナッピー圧縮を使用していることを示す .snappy.parquet
で終わります。
ファイルをダウンロードして解凍します
curl
を使用して圧縮ファイルをダウンロードし、unzip
を使用してデータを展開します。次の例では、インターネットからダウンロードした圧縮された CSV ファイルを使用します。インターネット からデータをダウンロードするを参照してください。
Bash
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
ファイルをボリュームに移動する
次に、展開されたファイルを Unity Catalog ボリュームに移動します。
Python
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
この例では、ダウンロードされたデータの最初の行にコメントがあり、2 番目の行にヘッダーがあります。データを移動および展開したので、CSV ファイルを読み取るための標準オプションを使用します。
Python
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)