Pular para o conteúdo principal

Leitor de fluxo de dados

Interface utilizada para carregar um DataFrame de transmissão a partir de sistemas de armazenamento externos (por exemplo, sistemas de arquivos e armazenamentos key-valor). Use spark.readStream para acessar isso.

Sintaxe

Python
# Access through SparkSession
spark.readStream

Métodos

Método

Descrição

format(source)

Especifica o formato da fonte de dados de entrada.

schema(schema)

Especifica o esquema do DataFrame da transmissão.

option(key, value)

Adiciona uma opção de entrada para a fonte de dados subjacente.

options(**options)

Adiciona múltiplas opções de entrada para a fonte de dados subjacente.

load(path)

Carrega o DataFrame de transmissão a partir do caminho fornecido e o retorna.

json(path)

Carrega uma transmissão de arquivo JSON e retorna um DataFrame.

orc(path)

Carrega uma transmissão de arquivo ORC e retorna um DataFrame.

parquet(path)

Carrega uma transmissão de arquivo Parquet e retorna um DataFrame.

text(path)

Carrega um arquivo de texto de transmissão e retorna um DataFrame.

csv(path)

Carrega uma transmissão de arquivo CSV e retorna um DataFrame.

xml(path)

Carrega uma transmissão de arquivo XML e retorna um DataFrame.

table(tableName)

Carrega uma tabela Delta de transmissão e retorna um DataFrame.

name(source_name)

Atribui um nome à fonte de transmissão para a evolução do ponto de verificação.

changes(tableName)

Retorna alterações em nível de linha (captura de dados de alterações (CDC)) da tabela especificada como uma transmissão DataFrame.

Exemplos

Python
spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

Carregue uma taxa de transmissão, aplique uma transformação, escreva no console e pare após 3 segundos.

Python
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()