バケツ

パーティション変換関数: 入力列のハッシュによってパーティション分割する任意の型の変換。Spark Connect をサポートします。

警告

4.0.0 では非推奨です。代わりにpartitioning.bucketを使用してください。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.bucket(numBuckets=<numBuckets>, col=<col>)

パラメーター	Type	説明
`numBuckets`	`pyspark.sql.Column` または `int`	バケットの数。
`col`	`pyspark.sql.Column` または `str`	作業対象となる日付またはタイムスタンプの列。

pyspark.sql.Column: 指定された列でパーティション化されたデータ。

Python
df.writeTo("catalog.db.table").partitionedBy(
    bucket(42, "ts")
).createOrReplace()

注記

この関数は、DataFrameWriterV2 のpartitionedByメソッドと組み合わせてのみ使用できます。