Leitor de fluxo de dados
Interface utilizada para carregar um DataFrame de transmissão a partir de sistemas de armazenamento externos (por exemplo, sistemas de arquivos e armazenamentos key-valor). Use spark.readStream para acessar isso.
Sintaxe
# Access through SparkSession
spark.readStream
Métodos
Método | Descrição |
|---|---|
Especifica o formato da fonte de dados de entrada. | |
Especifica o esquema do DataFrame da transmissão. | |
Adiciona uma opção de entrada para a fonte de dados subjacente. | |
Adiciona múltiplas opções de entrada para a fonte de dados subjacente. | |
Carrega o DataFrame de transmissão a partir do caminho fornecido e o retorna. | |
Carrega uma transmissão de arquivo JSON e retorna um DataFrame. | |
Carrega uma transmissão de arquivo ORC e retorna um DataFrame. | |
Carrega uma transmissão de arquivo Parquet e retorna um DataFrame. | |
Carrega um arquivo de texto de transmissão e retorna um DataFrame. | |
Carrega uma transmissão de arquivo CSV e retorna um DataFrame. | |
Carrega uma transmissão de arquivo XML e retorna um DataFrame. | |
Carrega uma tabela Delta de transmissão e retorna um DataFrame. | |
Atribui um nome à fonte de transmissão para a evolução do ponto de verificação. | |
Retorna alterações em nível de linha (captura de dados de alterações (CDC)) da tabela especificada como uma transmissão DataFrame. |
Exemplos
spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>
Carregue uma taxa de transmissão, aplique uma transformação, escreva no console e pare após 3 segundos.
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()