Pular para o conteúdo principal

amostraPor (DataFrameStatFunctions)

Retorna uma amostra estratificada sem reposição com base na fração fornecida em cada estrato.

Sintaxe

sampleBy(col, fractions, seed=None)

Parâmetros

Parâmetro

Tipo

Descrição

col

str

A coluna que define os estratos.

fractions

dicionário

A fração de amostragem para cada estrato. Os estratos não especificados são tratados como tendo uma fração de zero.

seed

int, opcional

Semente aleatória.

Devoluções

DataFrame

Exemplos

Python
from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# | 0| 4|
# | 1| 9|
# +---+-----+