请问爬虫爬过来的数据 为啥要先进行大数据处理才给后端展示呢?

因为我了解的大数据可能就是数据分析和处理,比如爬虫 抓了很多数据 必须经过爬虫这样的处理才展示出来呢?

阅读 2.6k
2 个回答

爬虫拿到的数据都是文本型的信息,其中的逻辑关系数据结构在爬数据的时候比较弱(关注主要业务),不一定是结构化有业务含义的。通过必要的数据清理后,可删除一些无意义的脏数据,一些老数据,整理数据结构和梳理逻辑关系,这样后端同学拿到后就比较愉快,更好的处理业务逻辑

新手上路,请多包涵

数据的清洗处理工作可能会占据数据分析过程的60%-70%工作量,可不止是分析~如果没有接触到数据清洗这块,可能是其他同事或者是已经有程序自动化处理过了。以上。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进