幅バケット

この式の値が評価された後に該当するバケット番号を返します。入力引数は以下にリストされている条件に従う必要があることに注意してください。そうでない場合、メソッドは null を返します。Spark Connect をサポートします。

対応する Databricks SQL 関数については、 width_bucket関数を参照してください。

構文

Python
from pyspark.sql import functions as dbf

dbf.width_bucket(v=<v>, min=<min>, max=<max>, numBucket=<numBucket>)

パラメーター

パラメーター	Type	説明
`v`	`pyspark.sql.Column or column name`	ヒストグラム内のバケット番号をコンピュートする値
`min`	`pyspark.sql.Column or column name`	ヒストグラムの最小値
`max`	`pyspark.sql.Column or column name`	ヒストグラムの最大値
`numBucket`	`pyspark.sql.Column, column name or int`	バケットの数

パラメーター	Type	説明
`v`	`pyspark.sql.Column or column name`	ヒストグラム内のバケット番号をコンピュートする値
`min`	`pyspark.sql.Column or column name`	ヒストグラムの最小値
`max`	`pyspark.sql.Column or column name`	ヒストグラムの最大値
`numBucket`	`pyspark.sql.Column, column name or int`	バケットの数

戻り値

pyspark.sql.Column: 評価後に値が分類されるバケット番号

例

Python
from pyspark.sql import functions as dbf
df = spark.createDataFrame([
    (5.3, 0.2, 10.6, 5),
    (-2.1, 1.3, 3.4, 3),
    (8.1, 0.0, 5.7, 4),
    (-0.9, 5.2, 0.5, 2)],
    ['v', 'min', 'max', 'n'])
df.select("*", dbf.width_bucket('v', 'min', 'max', 'n')).show()

Output
+----+---+----+---+----------------------------+
|   v|min| max|  n|width_bucket(v, min, max, n)|
+----+---+----+---+----------------------------+
| 5.3|0.2|10.6|  5|                           3|
|-2.1|1.3| 3.4|  3|                           0|
| 8.1|0.0| 5.7|  4|                           5|
|-0.9|5.2| 0.5|  2|                           3|
+----+---+----+---+----------------------------+

構文​

パラメーター​

戻り値​

例​

構文

パラメーター

戻り値

例