Pular para o conteúdo principal

JSON (DataStreamReader)

Carrega uma transmissão de arquivo JSON e retorna os resultados como um DataFrame. Linhas JSON ( JSON delimitado por nova linha) são suportadas por default. Para JSON com um registro por arquivo, defina a opção multiLine como true. Se schema não for especificado, o esquema de entrada será inferido a partir dos dados.

Sintaxe

json(path, schema=None, **options)

Parâmetros

Parâmetro

Tipo

Descrição

path

str

Caminho para o dataset JSON .

schema

StructType ou str, opcional

Esquema como um StructType ou strings formatadas em DDL (por exemplo, col0 INT, col1 DOUBLE).

Devoluções

DataFrame

Exemplos

Carregue uma transmissão de um arquivo JSON temporário:

Python
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="json") as d:
spark.createDataFrame(
[(100, "Hyukjin Kwon"),], ["age", "name"]
).write.mode("overwrite").format("json").save(d)
q = spark.readStream.schema(
"age INT, name STRING"
).json(d).writeStream.format("console").start()
time.sleep(3)
q.stop()