Pular para o conteúdo principal

Gravador de fluxo de dados

Interface utilizada para gravar um DataFrame de transmissão em sistemas de armazenamento externos (por exemplo, sistemas de arquivos e armazenamentos key-valor). Use df.writeStream para acessar isso.

Sintaxe

Python
# Access through DataFrame
df.writeStream

Métodos

Método

Descrição

outputMode(outputMode)

Especifica como os dados de um DataFrame de transmissão são gravados no coletor. As opções são append, complete e update.

format(source)

Especifica o formato da fonte de dados de saída.

option(key, value)

Adiciona uma opção de saída para a fonte de dados subjacente.

options(**options)

Adiciona múltiplas opções de saída para a fonte de dados subjacente.

partitionBy(*cols)

Particiona a saída pelas colunas especificadas no sistema de arquivos.

clusterBy(*cols)

Agrupa a saída pelas colunas fornecidas.

queryName(queryName)

Especifica o nome da consulta de transmissão.

trigger(**kwargs)

Define o gatilho para a execução da consulta de transmissão.

foreach(f)

Define a saída da consulta de transmissão a ser processada pela função ou objeto fornecido.

foreachBatch(func)

Define a saída de cada microlote a ser processada pela função especificada.

start(path)

inicia a execução da consulta de transmissão e retorna um objeto StreamingQuery .

table(tableName)

Alias para toTable(). Escreve dados na tabela especificada e retorna um objeto StreamingQuery .

toTable(tableName)

Inicie a execução da consulta de transmissão, enviando continuamente os resultados para a tabela especificada.

Exemplos

Carregue uma taxa de transmissão, aplique uma transformação, escreva no console e pare após 3 segundos.

Python
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()