データソース

データソースの基本クラス。

このクラスは、読み取りや書き込みが可能なカスタムデータソースを表します。データソースは、それぞれデータの読み取りと書き込みを行うリーダーとライターを作成するメソッドを提供します。データソースを読み取り可能または書き込み可能（あるいはその両方）にするには、サブクラスでメソッドreader()またはwriter()の少なくとも 1 つを実装する必要があります。

このインターフェースを実装すると、 spark.read.format(...).load()を使用してデータソースを読み込み、 df.write.format(...).save()を使用してデータを保存できるようになります。

詳細については、 PySparkカスタムデータソース」を参照してください。

構文

Python
from pyspark.sql.datasource import DataSource

class MyDataSource(DataSource):
    @classmethod
    def name(cls):
        return "my_data_source"

パラメーター

パラメーター	Type	説明
`options`	辞書	このデータソースのオプションを表す、大文字と小文字を区別しない辞書。

方法

手法	説明
`name()`	このデータソースの形式名を表す文字列を返します。デフォルトでは、クラス名を返します。オーバーライドしてカスタマイズされた短い名前を提供します。
`schema()`	データソースのスキーマを`StructType`または DDL 文字列として返します。実装されておらず、ユーザーによってスキーマが提供されていない場合は、例外がスローされます。
`reader(schema)`	データを読み取るための`DataSourceReader`インスタンスを返します。読み取り可能なデータソースに必要です。
`writer(schema, overwrite)`	データを書き込むための`DataSourceWriter`インスタンスを返します。書き込み可能なデータソースに必要です。
`streamWriter(schema, overwrite)`	ストリーミングシンクにデータを書き込むための`DataSourceStreamWriter`インスタンスを返します。書き込み可能なストリーミングデータソースに必要です。
`simpleStreamReader(schema)`	ストリーミングデータを読み取るための`SimpleDataSourceStreamReader`インスタンスを返します。`streamReader()`が実装されていない場合にのみ使用されます。
`streamReader(schema)`	ストリーミングデータを読み取るための`DataSourceStreamReader`インスタンスを返します。`simpleStreamReader()`よりも優先されます。

例

カスタム読み取り可能なデータソースを定義して登録します。

Python
from pyspark.sql.datasource import DataSource, DataSourceReader, InputPartition

class MyDataSource(DataSource):
    @classmethod
    def name(cls):
        return "my_data_source"

    def schema(self):
        return "a INT, b STRING"

    def reader(self, schema):
        return MyDataSourceReader(schema)

class MyDataSourceReader(DataSourceReader):
    def read(self, partition):
        yield (1, "hello")
        yield (2, "world")

spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()

StructTypeスキーマを使用してデータソースを定義します。

Python
from pyspark.sql.types import StructType, StructField, IntegerType, StringType

class MyDataSource(DataSource):
    def schema(self):
        return StructType().add("a", "int").add("b", "string")

構文​

パラメーター​

方法​

例​

構文

パラメーター

方法

例