使用spark或者hadoop删除重复的双向关系数据

我有一批数据（100亿）如下，

ID FROM TO
1   A    B
2   A    C
3   B    A
4   C    A

删除重复的双向关系数据如下

ID FROM TO
1   A    B
2   A    C

1、因为数据量太大，bloomfilter已经不太合适了；
2、使用数据库查询去重复效率又太低下；
3、用spark或者hadoop处理这样海量的数据，是不是会比较合适？网络上找到的去重方案都是类似使用groupby某个字段去重复，这对于我这数据意义不大啊。

阅读 3k

1 个回答

得票最新

可以用 Spark，把 FROM 和 TO 两个字段排序，第一份数据变成

ID FROM TO
1   A    B
2   A    C
3   A    B
4   A    C

然后再去重或 reduce 就行了

撰写回答

推荐问题

相似问题

找不到问题？创建新问题