Parquet(DataFrameWriter)
DataFrameの内容を Parquet 形式で指定されたパスに保存します。
構文
parquet(path, mode=None, partitionBy=None, compression=None)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
| str | Hadoopがサポートするファイルシステム上のパス。 |
| 文字列、オプション | データが既に存在する場合の動作。許容される値は、 |
| 文字列またはリスト(省略可能) | パーティショニング列の名前。 |
| 文字列、オプション | 使用する圧縮コーデック。 |
戻り値
なし
例
DataFrameをParquetファイルに書き込み、それを読み込む。
Python
import tempfile
with tempfile.TemporaryDirectory(prefix="parquet") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}]
).write.parquet(d, mode="overwrite")
spark.read.format("parquet").load(d).show()
# +---+------------+
# |age| name|
# +---+------------+
# |100|Alice|
# +---+------------+