サンプル
このDataFrameのサンプリングされたサブセットを返します。
構文
sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
| ブール値、オプション | 置換あり/なしのサンプル(デフォルトは |
| float、オプション | 生成する行の割合。範囲は[0.0, 1.0]。 |
| 整数、オプション | サンプリング用のシード(デフォルトはランダムなシード)。 |
戻り値
DataFrame: 指定されたDataFrameからサンプリングされた行。
注意
これは、指定されたDataFrameの総数のうち、指定された割合を正確に提供することを保証するものではありません。
fraction は必須であり、 withReplacementとseedはオプションです。
例
Python
df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10