メインコンテンツまでスキップ

Parquet(DataFrameWriter)

DataFrameの内容を Parquet 形式で指定されたパスに保存します。

構文

parquet(path, mode=None, partitionBy=None, compression=None)

パラメーター

パラメーター

Type

説明

path

str

Hadoopがサポートするファイルシステム上のパス。

mode

文字列、オプション

データが既に存在する場合の動作。許容される値は、 'append''overwrite''ignore''error'または'errorifexists' (デフォルト値)です。

partitionBy

文字列またはリスト(省略可能)

パーティショニング列の名前。

compression

文字列、オプション

使用する圧縮コーデック。

戻り値

なし

DataFrameをParquetファイルに書き込み、それを読み込む。

Python
import tempfile
with tempfile.TemporaryDirectory(prefix="parquet") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}]
).write.parquet(d, mode="overwrite")

spark.read.format("parquet").load(d).show()
# +---+------------+
# |age| name|
# +---+------------+
# |100|Alice|
# +---+------------+
このページの見出し