メインコンテンツまでスキップ

文章

文字列を文の配列に分割します。各文は単語の配列です。

languageおよびcountry引数はオプションです。省略された場合:

  • 両方とも省略した場合は、 Locale.ROOT - locale(language='', country='')が使用されます。Locale.ROOTはすべてのロケールの基本ロケールとみなされ、ロケールに依存する操作では言語/国に依存しないロケールとして使用されます。
  • countryが省略された場合は、 locale(language, country='')が使用されます。

null の場合:

  1. 両方ともnullの場合は、 Locale.US - locale(language='en', country='US')が使用されます。
  2. languageが null で、 countryが null でない場合は、 Locale.US - locale(language='en', country='US')が使用されます。
  3. languageが null でなく、 countryが null の場合、 locale(language)が使用されます。
  4. どちらもnullでない場合は、 locale(language, country)が使用されます。

対応する Databricks SQL 関数については、 sentences関数を参照してください。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

パラメーター

パラメーター

Type

説明

string

pyspark.sql.Column または str

分割する文字列

language

pyspark.sql.Column または str, optional

地域の言語

country

pyspark.sql.Column または str, optional

地元の国

戻り値

pyspark.sql.Column: 分割された文の配列。

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)