メインコンテンツまでスキップ

データストリームライター

外部ストレージ システム (ファイル システムやキー/値ストアなど) にストリーミングDataFrame書き込むために使用されるインターフェイス。 これにアクセスするにはdf.writeStreamを使用してください。

構文

Python
# Access through DataFrame
df.writeStream

方法

手法

説明

outputMode(outputMode)

ストリーミングDataFrameのデータをシンクに書き込む方法を指定します。 選択肢はappendcompleteupdateです。

format(source)

出力データソースのフォーマットを指定します。

option(key, value)

基となるデータソースの出力オプションを追加します。

options(**options)

基となるデータソースに対して、複数の出力オプションを追加します。

partitionBy(*cols)

ファイルシステム上で、指定された列に基づいて出力を分割します。

clusterBy(*cols)

指定された列ごとに出力をクラスタリングします。

queryName(queryName)

ストリーミングクエリの名前を指定します。

trigger(**kwargs)

ストリーミングクエリ実行のトリガーを設定します。

foreach(f)

指定された関数またはオブジェクトによって処理されるストリーミングクエリの出力を設定します。

foreachBatch(func)

指定された関数によって処理される各マイクロバッチの出力を設定します。

start(path)

ストリーミングクエリの実行を開始し、 StreamingQueryオブジェクトを返します。

table(tableName)

toTable()のエイリアス。指定されたテーブルにデータを書き込み、 StreamingQueryオブジェクトを返します。

toTable(tableName)

ストリーミングクエリの実行を開始し、結果を指定されたテーブルに継続的に出力します。

レートストリームを読み込み、変換を適用し、コンソールに書き込み、3秒後に停止します。

Python
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()
このページの見出し