flume+kafka+spark Streaming监听处理文件，但需要streaming能对完整的单个文件进行处理。

Question

flume+kafka+spark Streaming监听处理文件，但需要streaming能对完整的单个文件进行处理。

发布于
2019-03-01

新手上路，请多包涵

用flume+kafka+spark streaming框架分析数据，数据文件是导入的一个一个的，也就是完整的导入的，因为这些文件中每个文件的数据都是应用场景中一次事件的数据，具有独立性，现在希望在spark这边能对完整的单个数据文件进行处理。
场景如下：往flume监听的文件中一次性导入多个文件，然后这些数据传递到spark streaming中，现在希望spark在处理这些数据时以一个文件为单位来处理数据。如：两个文件
1.txt：123n123
2.txt：234n234
现在spark收到数据后希望只对1.txt中的数据进行处理，处理完后再处理2.txt。
我觉得最佳方案是在flume，kafka和streaming这一套流程中进行设置，使得传输过程中按单个文件传输，但不知道怎么弄也不知道行不行，所以过来请教各位大佬，希望大佬们提点建议。

flume kafka spark-streaming

阅读 2.2k

1 个回答

得票最新

chaplinthink

5114

发布于
2019-05-11

相当于要保证数据的顺序性？按照你目前的方案有哪些问题是担忧的？

撰写回答