Pular para o conteúdo principal

texto (DataFrameReader)

Carrega arquivos de texto e retorna um DataFrame cujo esquema começa com uma coluna de strings chamada value, seguida por colunas particionadas, se houver alguma presente. Os arquivos de texto devem ser codificados em UTF-8. Por default, cada linha no arquivo de texto é uma nova linha no DataFrame resultante.

Sintaxe

text(paths, wholetext=False, lineSep=None, **options)

Parâmetros

Parâmetro

Tipo

Descrição

paths

string ou lista

Um ou mais caminhos de entrada.

wholetext

booleano, opcional

Se True, leia cada arquivo como uma única linha. O valor padrão é False.

lineSep

str, opcional

O separador de linhas a ser utilizado. O valor padrão é '\n', '\r' ou '\r\n'.

Devoluções

DataFrame

Exemplos

Escreva um DataFrame em um arquivo de texto e leia-o de volta.

Python
import tempfile
with tempfile.TemporaryDirectory(prefix="text") as d:
df = spark.createDataFrame([("a",), ("b",), ("c",)], schema=["alphabets"])
df.write.mode("overwrite").format("text").save(d)

spark.read.schema(df.schema).text(d).sort("alphabets").show()
# +---------+
# |alphabets|
# +---------+
# | a|
# | b|
# | c|
# +---------+