Gravador de fluxo de dados
Interface utilizada para gravar um DataFrame de transmissão em sistemas de armazenamento externos (por exemplo, sistemas de arquivos e armazenamentos key-valor). Use df.writeStream para acessar isso.
Sintaxe
# Access through DataFrame
df.writeStream
Métodos
Método | Descrição |
|---|---|
Especifica como os dados de um DataFrame de transmissão são gravados no coletor. As opções são | |
Especifica o formato da fonte de dados de saída. | |
Adiciona uma opção de saída para a fonte de dados subjacente. | |
Adiciona múltiplas opções de saída para a fonte de dados subjacente. | |
Particiona a saída pelas colunas especificadas no sistema de arquivos. | |
Agrupa a saída pelas colunas fornecidas. | |
Especifica o nome da consulta de transmissão. | |
Define o gatilho para a execução da consulta de transmissão. | |
Define a saída da consulta de transmissão a ser processada pela função ou objeto fornecido. | |
Define a saída de cada microlote a ser processada pela função especificada. | |
inicia a execução da consulta de transmissão e retorna um objeto | |
Alias para | |
Inicie a execução da consulta de transmissão, enviando continuamente os resultados para a tabela especificada. |
Exemplos
Carregue uma taxa de transmissão, aplique uma transformação, escreva no console e pare após 3 segundos.
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()