partitionBy (DataStreamWriter)

Particiona a saída pelas colunas especificadas no sistema de arquivos. A saída é organizada de forma semelhante ao esquema de particionamento do Hive.

Sintaxe

partitionBy(*cols)

Parâmetros

Parâmetro	Tipo	Descrição
`*cols`	string ou lista	Nomes das colunas pelas quais particionar.

Devoluções

DataStreamWriter

Exemplos

Python
df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>

Particione uma transmissão de origem Rate por timestamp e escreva em Parquet:

Python
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
    with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
        df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
        q = df.writeStream.partitionBy(
            "timestamp").format("parquet").option("checkpointLocation", cp).start(d)
        time.sleep(5)
        q.stop()
        spark.read.schema(df.schema).parquet(d).show()

Sintaxe​

Parâmetros​

Devoluções​

Exemplos​

Sintaxe

Parâmetros

Devoluções

Exemplos