flume+kafka+spark Streaming监听处理文件,但需要streaming能对完整的单个文件进行处理。

新手上路,请多包涵

用flume+kafka+spark streaming框架分析数据,数据文件是导入的一个一个的,也就是完整的导入的,因为这些文件中每个文件的数据都是应用场景中一次事件的数据,具有独立性,现在希望在spark这边能对完整的单个数据文件进行处理。
场景如下:往flume监听的文件中一次性导入多个文件,然后这些数据传递到spark streaming中,现在希望spark在处理这些数据时以一个文件为单位来处理数据。如:两个文件
1.txt:123n123
2.txt:234n234
现在spark收到数据后希望只对1.txt中的数据进行处理,处理完后再处理2.txt。
我觉得最佳方案是在flume,kafka和streaming这一套流程中进行设置,使得传输过程中按单个文件传输,但不知道怎么弄也不知道行不行,所以过来请教各位大佬,希望大佬们提点建议。

阅读 2.1k
1 个回答

相当于要保证数据的顺序性?按照你目前的方案有哪些问题是担忧的?

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进