Transforming Complex Data Types - Scala

import org.apache.spark.sql.DataFrameimport org.apache.spark.sql.functions._import org.apache.spark.sql.types._ // Convenience function for turning JSON strings into DataFrames.def jsonToDataFrame(json: String, schema: StructType = null): DataFrame = {  // SparkSessions are available with Spark 2.0+  val reader = spark.read  Option(schema).foreach(reader.schema)  reader.json(sc.parallelize(Array(json)))}

import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._ jsonToDataFrame: (json: String, schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame

// Using a structval schema = new StructType().add("a", new StructType().add("b", IntegerType))                          val events = jsonToDataFrame("""{  "a": {     "b": 1  }}""", schema) display(events.select("a.b"))

// Using a mapval schema = new StructType().add("a", MapType(StringType, IntegerType))                          val events = jsonToDataFrame("""{  "a": {     "b": 1  }}""", schema) display(events.select("a.b"))

val events = jsonToDataFrame("""{  "a": {     "b": 1,     "c": 2  }}""") display(events.select("a.*"))

val events = jsonToDataFrame("""{  "a": 1,  "b": 2,  "c": 3}""") display(events.select(struct('a as 'y) as 'x))

val events = jsonToDataFrame("""{  "a": 1,  "b": 2}""") display(events.select(struct("*") as 'x))

val events = jsonToDataFrame("""{  "a": [1, 2]}""") display(events.select('a.getItem(0) as 'x))

// Using a mapval schema = new StructType().add("a", MapType(StringType, IntegerType)) val events = jsonToDataFrame("""{  "a": {    "b": 1  }}""", schema) display(events.select('a.getItem("b") as 'x))

val events = jsonToDataFrame("""{  "a": [1, 2]}""") display(events.select(explode('a) as 'x))

// Using a mapval schema = new StructType().add("a", MapType(StringType, IntegerType)) val events = jsonToDataFrame("""{  "a": {    "b": 1,    "c": 2  }}""", schema) display(events.select(explode('a) as (Seq("x", "y"))))

val events = jsonToDataFrame("""[{ "x": 1 }, { "x": 2 }]""") display(events.select(collect_list('x) as 'x))

// using an aggregationval events = jsonToDataFrame("""[{ "x": 1, "y": "a" }, { "x": 2, "y": "b" }]""") display(events.groupBy("y").agg(collect_list('x) as 'x))

val events = jsonToDataFrame("""{  "a": [    {"b": 1},    {"b": 2}  ]}""") display(events.select("a.b"))

val events = jsonToDataFrame("""{  "a": {    "b": 1  }}""") display(events.select(to_json('a) as 'c))

val events = jsonToDataFrame("""{  "a": "{\"b\":1}"}""") val schema = new StructType().add("b", IntegerType)display(events.select(from_json('a, schema) as 'c))

val events = jsonToDataFrame("""{  "a": "{\"b\":{\"x\":1,\"y\":{\"z\":2}}}"}""") val schema = new StructType().add("b", new StructType().add("x", IntegerType)  .add("y", StringType))display(events.select(from_json('a, schema) as 'c))

val events = jsonToDataFrame("""{  "a": "{\"b\":1}"}""") display(events.select(json_tuple('a, "b") as 'c))

val events = jsonToDataFrame("""[{ "a": "x: 1" }, { "a": "y: 2" }]""") display(events.select(regexp_extract('a, "([a-z]):", 1) as 'c))

Transforming Complex Data Types - Scala(Scala)

Transforming Complex Data Types in Spark SQL