我在计算数据的feature,id 是每个item的唯一标志,在数据库里是主键.
我每次计算feature的时候是一个一个计算的。也就是我得到的
dataframe1 = (id,feature1)
dataframe2 = (id,feature2)
....
我希望把数据最后整合成(id,feature1,feature2,feature3,....)
除了手动join,有没有快捷的办法?(feature有很多大概快100个,我觉得这样太没效率了)
我在计算数据的feature,id 是每个item的唯一标志,在数据库里是主键.
我每次计算feature的时候是一个一个计算的。也就是我得到的
dataframe1 = (id,feature1)
dataframe2 = (id,feature2)
....
我希望把数据最后整合成(id,feature1,feature2,feature3,....)
除了手动join,有没有快捷的办法?(feature有很多大概快100个,我觉得这样太没效率了)
map成pairRdd<id,特征json>,union起来,reduce合并json,然后通过map把id添加到json里头变成rdd<json>再通过sqlContext.read().json转回df。
当然你也可以做sql拼装……