spark sql 解析嵌套对象数组的json

发布于
2018-03-06

1.现在有json数据如下

{"id":11,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000},{"package":"com.browser7","activetime":1205000}]}

{"id":12,"data":[{"package":"com.browser1","activetime":60000},{"package":"com.browser6","activetime":1205000}]}
......
,json里是app的激活时间,目的是分析每个app的总激活时间
我使用sparK sql解析 json

    val sqlContext = sc.sqlContext

    val behavior = sqlContext.read.json("behavior-json.log")
    behavior.cache()

    behavior.createOrReplaceTempView("behavior")
 

    val appActiveTime = sqlContext.sql("SELECT data FROM behavior")    //    sql查询
    
    appActiveTime.show(100,100)  //  打印dataFrame
    appActiveTime.rdd.foreach(println)  //  打印rdd

但是打印出来的dataFrame是这样的

+----------------------------------------------------------------------+
|                                                                  data|
+----------------------------------------------------------------------+
|                        [[60000,com.browser1], [12870000,com.browser]]|
|                          [[60000,com.browser1], [120000,com.browser]]|
|                          [[60000,com.browser1], [120000,com.browser]]|
|                         [[60000,com.browser1], [1207000,com.browser]]|
|                                                [[120000,com.browser]]|
|                        [[60000,com.browser1], [1204000,com.browser5]]|
|                        [[60000,com.browser1], [12075000,com.browser]]|
|                          [[60000,com.browser1], [120000,com.browser]]|
|                         [[60000,com.browser1], [1204000,com.browser]]|
|                          [[60000,com.browser1], [120000,com.browser]]|
|                         [[60000,com.browser1], [1201000,com.browser]]|
|                                              [[1200400,com.browser5]]|
|                         [[60000,com.browser1], [1200400,com.browser]]|
|[[60000,com.browser1], [1205000,com.browser6], [1205000,com.browser7]]|

rdd是这样的

[WrappedArray([60000,com.browser1], [60000,com.browser1])]
[WrappedArray([120000,com.browser])]
[WrappedArray([60000,com.browser1], [1204000,com.browser5])]
[WrappedArray([12075000,com.browser], [12075000,com.browser])]

而我想把数据转化成

com.browser1 60000 
com.browser1 60000 
com.browser 12075000 
com.browser 12075000 
.......

就是想要把rdd中每行的数组元素变成一行一个. 当然也可以是其他易于分析的结构

因为本人是spark和scala的初学者,所以试了好久都不成功,所以希望大家能指导我一下.

spark scala spark-streaming json 大数据

阅读 13.1k

3 个回答

liuxinsi

✓ 已被采纳

没毛病.
根据你的原始的json，如果转换成表结构确实是这个格式，因为json里有两个属性，一个id，一个data，data是个列表，如果你不自己map，spark是不会知道你那个列表映射成表的结构是什么样子的

+--------------------+---+
|                data| id|
+--------------------+---+
|[[60000, com.brow...| 11|
+--------------------+---+

所以如果你想以表的结构展示你的json，需要自己map一下

   val session = SparkSession.builder().config(sc).getOrCreate()
    try {
      val schema = StructType(Seq(
        StructField("id", LongType),
        StructField("package", StringType),
        StructField("activetime", LongType)
      ))

      val encoder = RowEncoder(schema)

      val df = session.read.json("file:\\\\\\E:/anc.json")
        .flatMap(new FlatMapFunction[Row, Row] {
          override def call(r: Row): util.Iterator[Row] = {
            val list = new util.ArrayList[Row]()
            val datas = r.getAs[mutable.WrappedArray.ofRef[Row]]("data")
            datas.foreach(data => {
              list.add(Row(r.getAs[Long]("id"), data.getAs[Long](1), data.getAs[String](0)))
            })
            list.iterator()
          }
        }, encoder)

      df.show()

最后表结构为：

+---+------------+----------+
| id|     package|activetime|
+---+------------+----------+
| 11|com.browser1|     60000|
| 11|com.browser6|   1205000|
| 11|com.browser7|   1205000|
+---+------------+----------+

你也可以在你
sqlContext.sql("SELECT data FROM behavior")
后进行map，关键点在那个列表想怎么展示

老T1234

发布于
2018-04-02

新手上路，请多包涵

请问你这个有解决方案了么？

JarShaw

发布于
2018-07-17

新手上路，请多包涵

使用EXPLODE函数可以铺平数组

SELECT EXPLODE(data) FROM behavior

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

spark sql 解析嵌套对象数组的json

1.现在有json数据如下

你尚未登录，登录后可以

多个nas如何整合成一个整体?

JSON数据键的值，应该如何写多次换行的内容呢？

scala栈溢出的问题？

spark mlib堆栈溢出错误谢谢？

用python语言使用spark streaming 读取kafka数据？

spark sql 解析嵌套对象数组的json

1.现在有json数据如下

你尚未登录，登录后可以

多个nas如何整合成一个整体?

JSON数据键的值，应该如何写多次换行的内容呢？

scala栈溢出的问题？

spark mlib堆栈溢出错误 谢谢？

用python语言使用spark streaming 读取kafka数据？

spark mlib堆栈溢出错误谢谢？