Zip圧縮ファイルの展開と読み取り

unzip Bash コマンドを使用して、Zip 圧縮ファイルまたはファイルのディレクトリを展開できます。ダウンロードした場合、または末尾が .zipのファイルまたはディレクトリに遭遇した場合は、続行する前にデータを展開してください。

Apache Spark には、圧縮された Parquet ファイルを操作するためのネイティブコーデックが用意されています。 Databricks によって記述されたほとんどの Parquet ファイルは、スナッピー圧縮を使用していることを示す .snappy.parquetで終わります。

データを解凍する方法

Databricks %sh magic コマンドを使用すると、 unzip コマンドを含む任意の Bash コードを実行できます。

次の例では、インターネットからダウンロードした圧縮された CSV ファイルを使用します。インターネットからのデータのダウンロードを参照してください。

Databricks ユーティリティを使用して、ファイルを展開する前に、ドライバーに接続されているエフェメラルストレージにファイルを移動します。

次のコードでは、 curl を使用してデータをダウンロードし、 unzip を使用してデータを展開します。

Bash
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

次のように、dbutils を使用して、展開されたファイルを Unity Catalog ボリュームに移動します。

Python
dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

この例では、ダウンロードされたデータの 1 行目にコメントがあり、2 行目にヘッダーがあります。データを移動および展開したので、次の例のように、CSV ファイルの読み取りに標準オプションを使用します。

Python
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)

データを解凍する方法​

データを解凍する方法