并查集算法如何在spark中高效实现?

并查集算法参考链接地址
这个算法可以实现多组不同的ID,比如说用户的mac与ip的关系,mac与订单号的关系,进行聚合构建出用户的标识集合来。
但是在spark中如何实现没有太多的眉目,不知道大家有没有一些好的实现思路提示一下

阅读 3.7k
1 个回答

spark dataframe register as table
spark sql

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题