最近想用node写个爬虫工具,一来属性下nodejs,二来提升下知识面(个人认为爬虫是个提升前端知识面不错的学例),但是自己工作经验也不多,工作中也没了解或用过爬虫,想问下大佬们:
1、一个大型的爬虫应该是怎样的?
2、需要具体具备哪些功能?(一个爬虫程序的需求?)
3、一般公司是怎么使用爬虫的?
最近想用node写个爬虫工具,一来属性下nodejs,二来提升下知识面(个人认为爬虫是个提升前端知识面不错的学例),但是自己工作经验也不多,工作中也没了解或用过爬虫,想问下大佬们:
1、一个大型的爬虫应该是怎样的?
2、需要具体具备哪些功能?(一个爬虫程序的需求?)
3、一般公司是怎么使用爬虫的?
呃,我不知道大型爬虫的标准是什么,我现在在维护一个爬虫(主要抓取新闻文章),每天抓取量10W+, 我是用Python3+scrapy写的,首先我感觉我要会的知识有以下几点:
补充一点,据说后面有的爬虫还要反编译app的apk包,感觉好难,高级爬虫据说还要懂java, android什么的
还有就是selenium, appium等效率贼慢,不适合部署,大规模抓取(个人感觉)
然后你的第三个问题: 公司如何使用爬虫?
这个我没有自己的经验回答你,因为我也没去过很多公司,但是我想公司要爬虫,肯定是有需求决定的,公司需要那些数据,就会想方设法的去获取数据。
10 回答11.1k 阅读
6 回答3k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
2 回答2.7k 阅读✓ 已解决
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
「提升前端知识面不错的学例」是什么意思?感觉除了从逆向思维思考前端如何写页面、工作原理然后对症找到爬取数据的方式,其他方面感觉并不能提升前端知识面。
对于真的需要了解前端开发方面的知识,可以看看这个文章:从Vue.js谈谈前端开发技术演变