メインコンテンツまでスキップ

負荷

データソースからデータを読み込み、 DataFrameとして返します。

構文

load(path=None, format=None, schema=None, **options)

パラメーター

パラメーター

Type

説明

path

文字列またはリスト(省略可能)

ファイルシステムを基盤とするデータソース内の1つ以上のパス。

format

文字列、オプション

データソースのフォーマット。デフォルト値は'parquet'です。

schema

構造体型またはstr(オプション)

入力スキーマは、 StructTypeオブジェクトまたは DDL 形式の文字列 (例: 'col0 INT, col1 DOUBLE' ) として指定します。

**options

辞書

その他の文字列オプション。

戻り値

DataFrame

フォーマット、スキーマ、オプションを指定したCSVファイルを読み込みます。

Python
import tempfile
with tempfile.TemporaryDirectory(prefix="load") as d:
df = spark.createDataFrame([{"age": 100, "name": "Alice"}])
df.write.option("header", True).mode("overwrite").format("csv").save(d)

df = spark.read.load(
d, schema=df.schema, format="csv", nullValue="Alice", header=True)
df.printSchema()
# root
# |-- age: long (nullable = true)
# |-- name: string (nullable = true)
df.show()
# +---+----+
# |age|name|
# +---+----+
# |100|NULL|
# +---+----+
このページの見出し