Transforming Complex Data Types - SQL

%python from pyspark.sql.functions import *from pyspark.sql.types import * # Convenience function for turning JSON strings into DataFrames.def jsonToDataFrame(json, schema=None):  # SparkSessions are available with Spark 2.0+  reader = spark.read  if schema:    reader.schema(schema)  reader.json(sc.parallelize([json])).createOrReplaceTempView("events")

%python # Using a structschema = StructType().add("a", StructType().add("b", IntegerType()))                          jsonToDataFrame("""{  "a": {     "b": 1  }}""", schema)

select a.b from events

%python # Using a mapschema = StructType().add("a", MapType(StringType(), IntegerType()))                          jsonToDataFrame("""{  "a": {     "b": 1  }}""", schema)

select a.b from events

%python jsonToDataFrame("""{  "a": {     "b": 1,     "c": 2  }}""")

select a.* from events

%python jsonToDataFrame("""{  "a": 1,  "b": 2,  "c": 3}""")

select named_struct("y", a) as x from events

%python jsonToDataFrame("""{  "a": 1,  "b": 2}""")

select struct(*) as x from events

%python jsonToDataFrame("""{  "a": [1, 2]}""")

select a[0] as x from events

%python # Using a mapschema = StructType().add("a", MapType(StringType(), IntegerType())) jsonToDataFrame("""{  "a": {    "b": 1  }}""", schema)

select a['b'] as x from events

%python jsonToDataFrame("""{  "a": [1, 2]}""")

select explode(a) as x from events

%python schema = StructType().add("a", MapType(StringType(), IntegerType())) jsonToDataFrame("""{  "a": {    "b": 1,    "c": 2  }}""", schema)

select explode(a) as (x, y) from events

%python jsonToDataFrame("""[{ "x": 1 }, { "x": 2 }]""")

select collect_list(x) as x from events

%python jsonToDataFrame("""[{ "x": 1, "y": "a" }, { "x": 2, "y": "b" }]""") 

select y, collect_list(x) as x from events group by y

%python jsonToDataFrame("""{  "a": [    {"b": 1},    {"b": 2}  ]}""")

select a.b from events

%python jsonToDataFrame("""{  "a": "{\\"b\\":1}"}""")

select json_tuple(a, "b") as c from events

%python jsonToDataFrame("""[{ "a": "x: 1" }, { "a": "y: 2" }]""")

select regexp_extract(a, "([a-z]):", 1) as c from events

Transforming Complex Data Types - SQL(SQL)

Transforming Complex Data Types in Spark SQL