文章

文字列を文の配列に分割します。各文は単語の配列です。

languageおよびcountry引数はオプションです。省略された場合:

両方とも省略した場合は、 Locale.ROOT - locale(language='', country='')が使用されます。Locale.ROOTはすべてのロケールの基本ロケールとみなされ、ロケールに依存する操作では言語/国に依存しないロケールとして使用されます。
countryが省略された場合は、 locale(language, country='')が使用されます。

null の場合:

両方ともnullの場合は、 Locale.US - locale(language='en', country='US')が使用されます。
languageが null で、 countryが null でない場合は、 Locale.US - locale(language='en', country='US')が使用されます。
languageが null でなく、 countryが null の場合、 locale(language)が使用されます。
どちらもnullでない場合は、 locale(language, country)が使用されます。

対応する Databricks SQL 関数については、 sentences関数を参照してください。

構文

Python
from pyspark.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

パラメーター

パラメーター	Type	説明
`string`	`pyspark.sql.Column` または `str`	分割する文字列
`language`	`pyspark.sql.Column` または `str, optional`	地域の言語
`country`	`pyspark.sql.Column` または `str, optional`	地元の国

パラメーター	Type	説明
`string`	`pyspark.sql.Column` または `str`	分割する文字列
`language`	`pyspark.sql.Column` または `str, optional`	地域の言語
`country`	`pyspark.sql.Column` または `str, optional`	地元の国

戻り値

pyspark.sql.Column: 分割された文の配列。

例

Python
from pyspark.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)

構文​

パラメーター​

戻り値​

例​

構文

パラメーター

戻り値

例