データストリームリーダー
外部ストレージ システム (ファイル システムやキー/値ストアなど) からストリーミングDataFrameロードするために使用されるインターフェイス。 これにアクセスするにはspark.readStreamを使用してください。
構文
Python
# Access through SparkSession
spark.readStream
方法
手法 | 説明 |
|---|---|
入力データソースのフォーマットを指定します。 | |
ストリーミングDataFrameのスキーマを指定します。 | |
基となるデータソースへの入力オプションを追加します。 | |
基となるデータソースに複数の入力オプションを追加します。 | |
指定されたパスからストリーミングDataFrameをロードして返します。 | |
JSONファイルストリームを読み込み、DataFrameを返します。 | |
ORCファイルストリームを読み込み、DataFrameを返します。 | |
Parquetファイルストリームを読み込み、DataFrameを返します。 | |
テキストファイルストリームを読み込み、DataFrameを返します。 | |
CSVファイルストリームを読み込み、DataFrameを返します。 | |
XMLファイルストリームを読み込み、DataFrameを返します。 | |
ストリーミングDeltaテーブルをロードし、 DataFrameを返します。 | |
チェックポイント進化のためのストリーミングソースに名前を割り当てます。 | |
指定されたテーブルから行レベルの変更 (変更データキャプチャ) をストリーミングDataFrameとして返します。 |
例
Python
spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>
レートストリームを読み込み、変換を適用し、コンソールに書き込み、3秒後に停止します。
Python
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()