メインコンテンツまでスキップ

バケツ

パーティション変換関数: 入力列のハッシュによってパーティション分割する任意の型の変換。Spark Connect をサポートします。

警告

4.0.0 では非推奨です。代わりにpartitioning.bucketを使用してください。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.bucket(numBuckets=<numBuckets>, col=<col>)

パラメーター

パラメーター

Type

説明

numBuckets

pyspark.sql.Column または int

バケットの数。

col

pyspark.sql.Column または str

作業対象となる日付またはタイムスタンプの列。

戻り値

pyspark.sql.Column: 指定された列でパーティション化されたデータ。

Python
df.writeTo("catalog.db.table").partitionedBy(
bucket(42, "ts")
).createOrReplace()
注記

この関数は、DataFrameWriterV2 のpartitionedByメソッドと組み合わせてのみ使用できます。