spark如何在dataset map中循环查询另一个表的数据?

新手上路,请多包涵

我有两个表,一个曝光表,一个点击表,我想找到点击最近的曝光记录关联上,条件要同一个用户和一些其他条件;如果找不到符合的,这个其他条件可以忽略,用同一用户的第一条曝光兜底。这种需求用join好像实现不了,目前想的是以点击为主,for循环点击记录,查询对应曝光管理,但我不清楚如何在算子的map里查询另外的算子,之前我是把曝光记录发布共享变量达到这个目的,但是曝光记录太大用共享变量会导致oom,所有问下有没有大佬有解决思路?

阅读 1.7k
1 个回答
新手上路,请多包涵

您好,请问一下map中循环查询另一张表的数据,这个问题解决了吗?最近我也遇到这个问题.被循环的表广播出去会导致内存溢出

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏