frases
Divide uma string em arrays de frases, onde cada frase é um array de palavras.
Os argumentos language e country são opcionais. Quando são omitidos:
- Se ambos forem omitidos, usa-se
Locale.ROOT - locale(language='', country=''). OLocale.ROOTé considerado o local base de todos os locais e é usado como o local neutro de idioma/país para as operações sensíveis ao local. - Se o
countryfor omitido, olocale(language, country='')será usado.
Quando são nulos:
- Se ambos forem
null, usa-seLocale.US - locale(language='en', country='US'). - Se
languagefor nulo ecountrynão for nulo,Locale.US - locale(language='en', country='US')será usado. - Se
languagenão for nulo ecountryfor nulo,locale(language)será usado. - Se nenhum dos dois for
null, usa-selocale(language, country).
Para a função Databricks SQL correspondente, consulte a funçãosentences.
Sintaxe
Python
from pyspark.databricks.sql import functions as dbf
dbf.sentences(string=<string>, language=<language>, country=<country>)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
|
| uma corda a ser dividida |
|
| uma língua local |
|
| um país do local |
Devoluções
pyspark.sql.Column: matrizes de frases divididas.
Exemplos
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)