メインコンテンツまでスキップ

スキーマ(DataStreamReader)

入力スキーマを指定します。一部のデータソース(例えばJSON)は、データから入力スキーマを自動的に推論することができます。ここでスキーマを指定することで、データソースはスキーマ推論をスキップし、データ読み込みを高速化できます。

構文

schema(schema)

パラメーター

パラメーター

Type

説明

schema

構造体型またはstr

StructType オブジェクトまたは DDL 形式の文字列 (例: col0 INT, col1 DOUBLE )。

戻り値

DataStreamReader

Python
from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>

CSVファイルに別のスキーマを指定する:

Python
import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
# root
# |-- col0: integer (nullable = true)
# |-- col1: string (nullable = true)
このページの見出し