メインコンテンツまでスキップ

データソース登録

データソース登録用のラッパー。

このインスタンスにはspark.dataSource経由でアクセスできます。これを使用してカスタムDataSourceサブクラスを登録し、 spark.read.format()およびdf.write.format()で名前で参照できるようにします。

構文

Python
spark.dataSource.register(MyDataSource)

方法

手法

説明

register(dataSource)

Pythonユーザー定義データソースを登録します。 dataSource DataSourceのサブクラスである必要があります。

カスタム データ ソースを登録し、そこから読み取ります。

Python
from pyspark.sql.datasource import DataSource, DataSourceReader

class MyDataSource(DataSource):
@classmethod
def name(cls):
return "my_data_source"

def schema(self):
return "id INT, value STRING"

def reader(self, schema):
return MyDataSourceReader(schema)

class MyDataSourceReader(DataSourceReader):
def read(self, partition):
yield (1, "hello")
yield (2, "world")

spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()