我有一批数据(100亿)如下,
ID FROM TO
1 A B
2 A C
3 B A
4 C A
删除重复的双向关系数据如下
ID FROM TO
1 A B
2 A C
1、因为数据量太大,bloomfilter已经不太合适了;
2、使用数据库查询去重复效率又太低下;
3、用spark或者hadoop处理这样海量的数据,是不是会比较合适?网络上找到的去重方案都是类似使用groupby某个字段去重复,这对于我这数据意义不大啊。
可以用 Spark,把 FROM 和 TO 两个字段排序,第一份数据变成
然后再去重或 reduce 就行了