登録する (UDFRegistration)

Python関数(ラムダ関数含む)またはユーザー定義関数をSQL関数として登録します。

構文

register(name, f, returnType=None)

パラメーター

パラメーター	Type	説明
`name`	str	SQL文におけるユーザー定義関数の名前。
`f`	関数、 `udf` 、または `pandas_udf`	Python関数、またはユーザー定義関数。ユーザー定義関数は、行単位で処理することも、ベクトル化することも可能です。
`returnType`	データ型または文字列（省略可能）	登録されたユーザー定義関数の戻り値の型。`DataType`オブジェクト、または DDL 形式の型文字列を指定できます。`f`通常のPython関数である場合にのみ有効であり、 `f`が既にユーザー定義関数である場合は無効です。

パラメーター	Type	説明
`name`	str	SQL文におけるユーザー定義関数の名前。
`f`	関数、 `udf` 、または `pandas_udf`	Python関数、またはユーザー定義関数。ユーザー定義関数は、行単位で処理することも、ベクトル化することも可能です。
`returnType`	データ型または文字列（省略可能）	登録されたユーザー定義関数の戻り値の型。`DataType`オブジェクト、または DDL 形式の型文字列を指定できます。`f`通常のPython関数である場合にのみ有効であり、 `f`が既にユーザー定義関数である場合は無効です。

戻り値

function

注意

非決定的なPython関数を登録するには、まずPython関数用の非決定的なユーザー定義関数を構築し、それをSQL関数として登録します。

例

Python
# Register a lambda as a SQL function (return type defaults to string).
strlen = spark.udf.register("stringLengthString", lambda x: len(x))
spark.sql("SELECT stringLengthString('test')").collect()
# [Row(stringLengthString(test)='4')]

spark.sql("SELECT 'foo' AS text").select(strlen("text")).collect()
# [Row(stringLengthString(text)='3')]

# Register with an explicit return type.
from pyspark.sql.types import IntegerType
spark.udf.register("stringLengthInt", lambda x: len(x), IntegerType())
spark.sql("SELECT stringLengthInt('test')").collect()
# [Row(stringLengthInt(test)=4)]

# Register an existing UDF.
from pyspark.sql.functions import udf
slen = udf(lambda s: len(s), IntegerType())
spark.udf.register("slen", slen)
spark.sql("SELECT slen('test')").collect()
# [Row(slen(test)=4)]

# Register a nondeterministic UDF.
import random
random_udf = udf(lambda: random.randint(0, 100), IntegerType()).asNondeterministic()
spark.udf.register("random_udf", random_udf)

# Register a pandas UDF.
import pandas as pd
from pyspark.sql.functions import pandas_udf

@pandas_udf("integer")
def add_one(s: pd.Series) -> pd.Series:
    return s + 1

spark.udf.register("add_one", add_one)
spark.sql("SELECT add_one(id) FROM range(3)").collect()
# [Row(add_one(id)=1), Row(add_one(id)=2), Row(add_one(id)=3)]

# Register a grouped aggregate pandas UDF.
@pandas_udf("integer")
def sum_udf(v: pd.Series) -> int:
    return v.sum()

spark.udf.register("sum_udf", sum_udf)
spark.sql(
    "SELECT sum_udf(v1) FROM VALUES (3, 0), (2, 0), (1, 1) tbl(v1, v2) GROUP BY v2"
).sort("sum_udf(v1)").collect()
# [Row(sum_udf(v1)=1), Row(sum_udf(v1)=5)]

構文​

パラメーター​

戻り値​

注意​

例​

構文

パラメーター

戻り値

注意

例