Registro da fonte de dados

Um wrapper para registro de fonte de dados.

Esta instância pode ser acessada através de spark.dataSource. Use-o para registrar uma subclasse DataSource personalizada para que ela possa ser referenciada pelo nome em spark.read.format() e df.write.format().

Sintaxe

Python
spark.dataSource.register(MyDataSource)

Métodos

Método	Descrição
`register(dataSource)`	registrar uma fonte de dados definida pelo usuário Python . `dataSource` deve ser uma subclasse de `DataSource`.

Exemplos

registre uma fonte de dados personalizada e leia-a:

Python
from pyspark.sql.datasource import DataSource, DataSourceReader

class MyDataSource(DataSource):
    @classmethod
    def name(cls):
        return "my_data_source"

    def schema(self):
        return "id INT, value STRING"

    def reader(self, schema):
        return MyDataSourceReader(schema)

class MyDataSourceReader(DataSourceReader):
    def read(self, partition):
        yield (1, "hello")
        yield (2, "world")

spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()

Sintaxe​

Métodos​

Exemplos​

Sintaxe

Métodos

Exemplos