Pular para o conteúdo principal

frases

Divide uma string em arrays de frases, onde cada frase é um array de palavras.

Os argumentos language e country são opcionais. Quando são omitidos:

  • Se ambos forem omitidos, usa-se Locale.ROOT - locale(language='', country='') . O Locale.ROOT é considerado o local base de todos os locais e é usado como o local neutro de idioma/país para as operações sensíveis ao local.
  • Se o country for omitido, o locale(language, country='') será usado.

Quando são nulos:

  1. Se ambos forem null, usa-se Locale.US - locale(language='en', country='US') .
  2. Se language for nulo e country não for nulo, Locale.US - locale(language='en', country='US') será usado.
  3. Se language não for nulo e country for nulo, locale(language) será usado.
  4. Se nenhum dos dois for null, usa-se locale(language, country) .

Para a função Databricks SQL correspondente, consulte a funçãosentences.

Sintaxe

Python
from pyspark.databricks.sql import functions as dbf

dbf.sentences(string=<string>, language=<language>, country=<country>)

Parâmetros

Parâmetro

Tipo

Descrição

string

pyspark.sql.Column ou str

uma corda a ser dividida

language

pyspark.sql.Column ou str, optional

uma língua local

country

pyspark.sql.Column ou str, optional

um país do local

Devoluções

pyspark.sql.Column: matrizes de frases divididas.

Exemplos

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("This is an example sentence.", )], ["s"])
df.select("*", dbf.sentences(df.s, dbf.lit("en"), dbf.lit("US"))).show(truncate=False)
df.select("*", dbf.sentences(df.s, dbf.lit("en"))).show(truncate=False)
df.select("*", dbf.sentences(df.s)).show(truncate=False)