Transforming Complex Data Types - Python

from pyspark.sql.functions import *from pyspark.sql.types import * # Convenience function for turning JSON strings into DataFrames.def jsonToDataFrame(json, schema=None):  # SparkSessions are available with Spark 2.0+  reader = spark.read  if schema:    reader.schema(schema)  return reader.json(sc.parallelize([json]))

# Using a structschema = StructType().add("a", StructType().add("b", IntegerType()))                          events = jsonToDataFrame("""{  "a": {     "b": 1  }}""", schema) display(events.select("a.b"))

# Using a mapschema = StructType().add("a", MapType(StringType(), IntegerType()))                          events = jsonToDataFrame("""{  "a": {     "b": 1  }}""", schema) display(events.select("a.b"))

events = jsonToDataFrame("""{  "a": {     "b": 1,     "c": 2  }}""") display(events.select("a.*"))

events = jsonToDataFrame("""{  "a": 1,  "b": 2,  "c": 3}""") display(events.select(struct(col("a").alias("y")).alias("x")))

events = jsonToDataFrame("""{  "a": 1,  "b": 2}""") display(events.select(struct("*").alias("x")))

events = jsonToDataFrame("""{  "a": [1, 2]}""") display(events.select(col("a").getItem(0).alias("x")))

# Using a mapschema = StructType().add("a", MapType(StringType(), IntegerType())) events = jsonToDataFrame("""{  "a": {    "b": 1  }}""", schema) display(events.select(col("a").getItem("b").alias("x")))

events = jsonToDataFrame("""{  "a": [1, 2]}""") display(events.select(explode("a").alias("x")))

# Using a mapschema = StructType().add("a", MapType(StringType(), IntegerType())) events = jsonToDataFrame("""{  "a": {    "b": 1,    "c": 2  }}""", schema) display(events.select(explode("a").alias("x", "y")))

events = jsonToDataFrame("""[{ "x": 1 }, { "x": 2 }]""") display(events.select(collect_list("x").alias("x")))

# using an aggregationevents = jsonToDataFrame("""[{ "x": 1, "y": "a" }, { "x": 2, "y": "b" }]""") display(events.groupBy("y").agg(collect_list("x").alias("x")))

events = jsonToDataFrame("""{  "a": [    {"b": 1},    {"b": 2}  ]}""") display(events.select("a.b"))

events = jsonToDataFrame("""{  "a": {    "b": 1  }}""") display(events.select(to_json("a").alias("c")))

events = jsonToDataFrame("""{  "a": "{\\"b\\":1}"}""") schema = StructType().add("b", IntegerType())display(events.select(from_json("a", schema).alias("c")))

events = jsonToDataFrame("""{  "a": "{\\"b\\":{\\"x\\":1,\\"y\\":{\\"z\\":2}}}"}""") schema = StructType().add("b", StructType().add("x", IntegerType())                            .add("y", StringType()))display(events.select(from_json("a", schema).alias("c")))

events = jsonToDataFrame("""{  "a": "{\\"b\\":1}"}""") display(events.select(json_tuple("a", "b").alias("c")))

Transforming Complex Data Types - Python(Python)

Transforming Complex Data Types in Spark SQL