メインコンテンツまでスキップ

フィルター

指定された配列内で述語が成立する要素の配列を返します。Spark Connect をサポートします。

対応する Databricks SQL 関数については、 filter関数を参照してください。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.filter(col=<col>, f=<f>)

パラメーター

パラメーター

Type

説明

col

pyspark.sql.Column または str

列または式の名前。

f

function

Boolean式を返す関数。 次のいずれかの形式を取ることができます: 単項(x: Column) -> Columnまたは二項(x: Column, i: Column) -> Columnここで、2 番目の引数は要素の 0 から始まるインデックスです。

戻り値

pyspark.sql.Column: 引数として渡されたときに、指定された関数が True と評価された要素のフィルターされた配列。

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame(
[(1, ["2018-09-20", "2019-02-03", "2019-07-01", "2020-06-01"])],
("key", "values")
)
def after_second_quarter(x):
return dbf.month(dbf.to_date(x)) > 6
df.select(
dbf.filter("values", after_second_quarter).alias("after_second_quarter")
).show(truncate=False)
Output
+------------------------+
|after_second_quarter |
+------------------------+
|[2018-09-20, 2019-07-01]|
+------------------------+