メインコンテンツまでスキップ

サンプル

このDataFrameのサンプリングされたサブセットを返します。

構文

sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)

パラメーター

パラメーター

Type

説明

withReplacement

ブール値、オプション

置換あり/なしのサンプル(デフォルトはFalse )。

fraction

float、オプション

生成する行の割合。範囲は[0.0, 1.0]。

seed

整数、オプション

サンプリング用のシード(デフォルトはランダムなシード)。

戻り値

DataFrame: 指定されたDataFrameからサンプリングされた行。

注意

これは、指定されたDataFrameの総数のうち、指定された割合を正確に提供することを保証するものではありません。

fraction は必須であり、 withReplacementseedはオプションです。

Python
df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10