particionadoPor

Particiona a tabela de saída criada por create, createOrReplace ou replace usando as colunas ou transformações fornecidas. Quando especificado, os dados da tabela são armazenados por meio desses valores para leituras eficientes.

Por exemplo, quando uma tabela é particionada por dia, ela pode ser armazenada em um diretório como:

table/day=2019-06-01/
table/day=2019-06-02/

O particionamento é uma das técnicas mais utilizadas para otimizar a disponibilidade física de dados. Ele fornece um índice de granularidade grosseira para evitar leituras de dados desnecessárias quando as consultas têm predicados nas colunas particionadas. Para que o particionamento funcione bem, o número de valores distintos em cada coluna deve ser normalmente inferior a dezenas de milhares.

col e cols suportam apenas as seguintes funções de transformação:

pyspark.sql.functions.years
pyspark.sql.functions.months
pyspark.sql.functions.days
pyspark.sql.functions.hours
pyspark.sql.functions.bucket

Sintaxe

partitionedBy(col, *cols)

Parâmetros

Parâmetro	Tipo	Descrição
`col`	Coluna ou str	A primeira coluna de particionamento ou transformação.
`*cols`	Coluna ou string, opcional	Colunas ou transformações de particionamento adicionais.

Devoluções

DataFrameWriterV2

Sintaxe​

Parâmetros​

Devoluções​

Sintaxe

Parâmetros

Devoluções