一个大型网络爬虫应该需要满足那些功能？

最近想用node写个爬虫工具，一来属性下nodejs，二来提升下知识面（个人认为爬虫是个提升前端知识面不错的学例），但是自己工作经验也不多，工作中也没了解或用过爬虫，想问下大佬们：

1、一个大型的爬虫应该是怎样的？
2、需要具体具备哪些功能？（一个爬虫程序的需求？）
3、一般公司是怎么使用爬虫的？

阅读 2.8k

2 个回答

得票最新

「提升前端知识面不错的学例」是什么意思？感觉除了从逆向思维思考前端如何写页面、工作原理然后对症找到爬取数据的方式，其他方面感觉并不能提升前端知识面。

对于真的需要了解前端开发方面的知识，可以看看这个文章：从Vue.js谈谈前端开发技术演变

呃，我不知道大型爬虫的标准是什么，我现在在维护一个爬虫(主要抓取新闻文章)，每天抓取量10W+, 我是用Python3+scrapy写的，首先我感觉我要会的知识有以下几点：

补充一点，据说后面有的爬虫还要反编译app的apk包，感觉好难，高级爬虫据说还要懂java, android什么的
还有就是selenium, appium等效率贼慢，不适合部署，大规模抓取(个人感觉)

然后你的第三个问题: 公司如何使用爬虫?
这个我没有自己的经验回答你，因为我也没去过很多公司，但是我想公司要爬虫，肯定是有需求决定的，公司需要那些数据，就会想方设法的去获取数据。

撰写回答

推荐问题