文章
文字列を文の配列に分割します。各文は単語の配列です。
languageおよびcountry引数はオプションです。省略された場合:
- 両方とも省略した場合は、
Locale.ROOT - locale(language='', country='')が使用されます。Locale.ROOTはすべてのロケールの基本ロケールとみなされ、ロケールに依存する操作では言語/国に依存しないロケールとして使用されます。 countryが省略された場合は、locale(language, country='')が使用されます。
null の場合:
- 両方とも
nullの場合は、Locale.US - locale(language='en', country='US')が使用されます。 languageが null で、countryが null でない場合は、Locale.US - locale(language='en', country='US')が使用されます。languageが null でなく、countryが null の場合、locale(language)が使用されます。- どちらも
nullでない場合は、locale(language, country)が使用されます。
対応する Databricks SQL 関数については、 sentences関数を参照してください。
構文
Python
from pyspark.databricks.sql import functions as dbf
dbf.sentences(string=<string>, language=<language>, country=<country>)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| 分割する文字列 |
|
| 地域の言語 |
|
| 地元の国 |
戻り値
pyspark.sql.Column: 分割された文の配列。
例
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)