spark如何计算前后两条数据(kafka数据源)的差值?

新手上路,请多包涵

数据源是kafka,有一个字段是时间戳,我们想要计算前后两条数据的时间戳的差值,然后新增一个字段存储这个值再发出去,要怎么做呢?
我查了一下好像要reducebykeyandwindow?用这个的话,把窗口大小设为两个batchtime就行了么?会不会出现两个窗口太小然后出现没有对应的上一条数据的情况?
或者我设置成10个batch time,是不是得到的结果就是10次的差值?
还是有什么其他办法?

阅读 3.5k
1 个回答

可以用spark DataFrame(或者spark sql) 开窗函数.

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进