如何将多个dataframe合并

我在计算数据的feature,id 是每个item的唯一标志,在数据库里是主键.
我每次计算feature的时候是一个一个计算的。也就是我得到的
dataframe1 = (id,feature1)
dataframe2 = (id,feature2)
....

我希望把数据最后整合成(id,feature1,feature2,feature3,....)
除了手动join,有没有快捷的办法?(feature有很多大概快100个,我觉得这样太没效率了)

阅读 13.7k
1 个回答

map成pairRdd<id,特征json>,union起来,reduce合并json,然后通过map把id添加到json里头变成rdd<json>再通过sqlContext.read().json转回df。

当然你也可以做sql拼装……

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进