数据源是kafka,有一个字段是时间戳,我们想要计算前后两条数据的时间戳的差值,然后新增一个字段存储这个值再发出去,要怎么做呢?
我查了一下好像要reducebykeyandwindow?用这个的话,把窗口大小设为两个batchtime就行了么?会不会出现两个窗口太小然后出现没有对应的上一条数据的情况?
或者我设置成10个batch time,是不是得到的结果就是10次的差值?
还是有什么其他办法?
数据源是kafka,有一个字段是时间戳,我们想要计算前后两条数据的时间戳的差值,然后新增一个字段存储这个值再发出去,要怎么做呢?
我查了一下好像要reducebykeyandwindow?用这个的话,把窗口大小设为两个batchtime就行了么?会不会出现两个窗口太小然后出现没有对应的上一条数据的情况?
或者我设置成10个batch time,是不是得到的结果就是10次的差值?
还是有什么其他办法?
1 回答574 阅读✓ 已解决
1 回答496 阅读✓ 已解决
645 阅读
可以用spark DataFrame(或者spark sql) 开窗函数.