フィルター

指定された配列内で述語が成立する要素の配列を返します。Spark Connect をサポートします。

対応する Databricks SQL 関数については、 filter関数を参照してください。

構文

Python
from pyspark.sql import functions as dbf

dbf.filter(col=<col>, f=<f>)

パラメーター

パラメーター	Type	説明
`col`	`pyspark.sql.Column` または `str`	列または式の名前。
`f`	`function`	Boolean式を返す関数。次のいずれかの形式を取ることができます: 単項`(x: Column) -> Column`または二項`(x: Column, i: Column) -> Column`ここで、2 番目の引数は要素の 0 から始まるインデックスです。

パラメーター	Type	説明
`col`	`pyspark.sql.Column` または `str`	列または式の名前。
`f`	`function`	Boolean式を返す関数。次のいずれかの形式を取ることができます: 単項`(x: Column) -> Column`または二項`(x: Column, i: Column) -> Column`ここで、2 番目の引数は要素の 0 から始まるインデックスです。

戻り値

pyspark.sql.Column: 引数として渡されたときに、指定された関数が True と評価された要素のフィルターされた配列。

例

Python
from pyspark.sql import functions as dbf
df = spark.createDataFrame(
    [(1, ["2018-09-20",  "2019-02-03", "2019-07-01", "2020-06-01"])],
    ("key", "values")
)
def after_second_quarter(x):
    return dbf.month(dbf.to_date(x)) > 6
df.select(
    dbf.filter("values", after_second_quarter).alias("after_second_quarter")
).show(truncate=False)

Output
+------------------------+
|after_second_quarter    |
+------------------------+
|[2018-09-20, 2019-07-01]|
+------------------------+

構文​

パラメーター​

戻り値​

例​

構文

パラメーター

戻り値

例