フィルター
指定された配列内で述語が成立する要素の配列を返します。Spark Connect をサポートします。
対応する Databricks SQL 関数については、 filter関数を参照してください。
構文
Python
from pyspark.databricks.sql import functions as dbf
dbf.filter(col=<col>, f=<f>)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| 列または式の名前。 |
|
| Boolean式を返す関数。 次のいずれかの形式を取ることができます: 単項 |
戻り値
pyspark.sql.Column: 引数として渡されたときに、指定された関数が True と評価された要素のフィルターされた配列。
例
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame(
[(1, ["2018-09-20", "2019-02-03", "2019-07-01", "2020-06-01"])],
("key", "values")
)
def after_second_quarter(x):
return dbf.month(dbf.to_date(x)) > 6
df.select(
dbf.filter("values", after_second_quarter).alias("after_second_quarter")
).show(truncate=False)
Output
+------------------------+
|after_second_quarter |
+------------------------+
|[2018-09-20, 2019-07-01]|
+------------------------+