データソースストリームリーダー

ストリーミングデータソースリーダーの基本クラス。

データソースストリームリーダーは、ストリーミングデータソースからデータを出力する責任があります。このクラスを実装し、 DataSource.streamReader()からインスタンスを返し、データソースをストリーミングソースとして読み取り可能にします。

Databricks Runtime 15.2で追加されました

構文

Python
from pyspark.sql.datasource import DataSourceStreamReader

class MyDataSourceStreamReader(DataSourceStreamReader):
    def initialOffset(self):
        ...

    def partitions(self, start, end):
        ...

    def read(self, partition):
        ...

方法

手法	説明
`initialOffset()`	ストリーミングデータソースの初期オフセットを`dict`として返します。新しいストリーミングクエリは、このオフセットから読み取りを開始します。JSONまたは`dict`形式で、プリミティブ型のオフセットキーと値のペアを返す必要があります。実装されていない場合は`PySparkNotImplementedError`を発生させます。
`latestOffset(start, limit)`	開始オフセットと読み取り制限を指定すると、利用可能な最新のオフセットを`dict`として返します。新しいデータがない場合、ソースは`start`と同じオフセットを返す可能性があります。ソースは常に指定された`limit`を遵守しなければなりません。JSONまたは`dict`形式で、プリミティブ型のオフセットキーと値のペアを返す必要があります。実装されていない場合は`PySparkNotImplementedError`を発生させます。
`partitions(start, end)`	`start`と`end`オフセット間のデータを表す`InputPartition`のオブジェクトのシーケンスを返します。`start` `end`と等しい場合、空のシーケンスを返します。各`InputPartition`は、1 つのSparkタスクで処理できるデータ分割を表します。
`read(partition)`	指定されたパーティションのデータを生成し、タプル、行、または PyArrow `RecordBatch`オブジェクトの反復子を返します。各タプルまたは行は、最終的な DataFrame の行に変換されます。このメソッドは抽象的であり、実装する必要があります。
`commit(end)`	Spark が`end`以下のオフセットのすべてのデータの処理を完了したことをソースに通知します。今後、Spark は`end`より大きいオフセットのみを要求します。
`stop()`	ソースを停止し、割り当てられているリソースを解放します。ストリーミングクエリが終了したときに呼び出されます。

注意

read() 静的かつステートレスです。read()の異なる呼び出し間で、変更可能なクラスメンバーにアクセスしたり、メモリ内の状態を保持したりしないでください。
partitions()によって返されるすべてのパーティション値は、pickle 化可能なオブジェクトである必要があります。
オフセットは、 dictまたは再帰的なdictで表され、そのキーと値は、整数、文字列、またはブール値などのプリミティブ型です。

例

インデックス付きレコードのシーケンスから読み取るストリーミングリーダーを実装します。

Python
from pyspark.sql.datasource import (
    DataSource,
    DataSourceStreamReader,
    InputPartition,
)

class MyDataSourceStreamReader(DataSourceStreamReader):
    def initialOffset(self):
        return {"index": 0}

    def latestOffset(self, start, limit):
        return {"index": start["index"] + 10}

    def partitions(self, start, end):
        return [
            InputPartition(i)
            for i in range(start["index"], end["index"])
        ]

    def read(self, partition):
        yield (partition.value, f"record-{partition.value}")

    def commit(self, end):
        print(f"Committed up to offset {end}")

    def stop(self):
        print("Stopping stream reader")

構文​

方法​

注意​

例​

構文

方法

注意

例