几千万个文本（1TB左右）需要根据规则计算做结构化，用什么大数据架构比较合适？

Question

目前有几千万个文本（1TB左右）的数据存储在sqlserver中。
需求是需要根据业务上的规则（位置，前后关键字，语法匹配等方式）对文本进行分析计算，将文本中的信息提取出来，生成结构化数据。
另外数据也是不断的在增长，每天增量在10~100万。

问题：

规则需要不断调整迭代，文本分析要反复进行，所以希望每次处理的时间尽量快一些，因此想采用分布式计算的方案。但具体使用什么架构比较好？hadoop，spark，storm等等，该如何选型，更适合当前的业务场景？
数据是否要从sqlserver导入到hadoop平台？用什么方案存储比较好？
生成的结构化数据是否可以写回到sqlserver中，前端程序改动较小，但不知道这样的话sqlserver是否会成为瓶颈？有没有什么解决方案？

阅读 2k

1 个回答

得票最新

新手上路，请多包涵