使用spark或者hadoop删除重复的双向关系数据

bag
  • 57

我有一批数据(100亿)如下,

ID FROM TO
1   A    B
2   A    C
3   B    A
4   C    A

删除重复的双向关系数据如下

ID FROM TO
1   A    B
2   A    C

1、因为数据量太大,bloomfilter已经不太合适了;
2、使用数据库查询去重复效率又太低下;
3、用spark或者hadoop处理这样海量的数据,是不是会比较合适?网络上找到的去重方案都是类似使用groupby某个字段去重复,这对于我这数据意义不大啊。

回复
阅读 2k
1 个回答

可以用 Spark,把 FROM 和 TO 两个字段排序,第一份数据变成

ID FROM TO
1   A    B
2   A    C
3   A    B
4   A    C

然后再去重或 reduce 就行了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏