Zip圧縮ファイルの展開と読み取り

unzip Bash コマンドを使用して、Zip (.zip) 圧縮ファイルまたはファイルのディレクトリを展開できます。Databricks %sh マジックコマンドを使用すると、 unzip コマンドを含む任意の Bash コードを実行できます。

Apache Spark には、圧縮された Parquet ファイルを操作するためのネイティブコーデックが用意されています。 Databricks によって記述されたほとんどの Parquet ファイルは、スナッピー圧縮を使用していることを示す .snappy.parquetで終わります。

ファイルをダウンロードして解凍します

curl を使用して圧縮ファイルをダウンロードし、unzip を使用してデータを展開します。次の例では、インターネットからダウンロードした圧縮された CSV ファイルを使用します。インターネットからデータをダウンロードするを参照してください。

Bash
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

ファイルをボリュームに移動する

次に、展開されたファイルを Unity Catalog ボリュームに移動します。

Python
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

この例では、ダウンロードされたデータの最初の行にコメントがあり、2 番目の行にヘッダーがあります。データを移動および展開したので、CSV ファイルを読み取るための標準オプションを使用します。

Python
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)

ファイルをダウンロードして解凍します​

ファイルをボリュームに移動する​

ファイルをダウンロードして解凍します

ファイルをボリュームに移動する