一个大型网络爬虫应该需要满足那些功能?

最近想用node写个爬虫工具,一来属性下nodejs,二来提升下知识面(个人认为爬虫是个提升前端知识面不错的学例),但是自己工作经验也不多,工作中也没了解或用过爬虫,想问下大佬们:

1、一个大型的爬虫应该是怎样的?
2、需要具体具备哪些功能?(一个爬虫程序的需求?)
3、一般公司是怎么使用爬虫的?

阅读 935
评论
    2 个回答

    「提升前端知识面不错的学例」是什么意思?感觉除了从逆向思维思考前端如何写页面、工作原理然后对症找到爬取数据的方式,其他方面感觉并不能提升前端知识面。

    1. 一般的爬虫程序,准确率不可能100%,所以你爬取完数据需要做数据清洗工作;
    2. 爬取太快的话反爬虫措施可能会封锁 IP、账号,所以你需要找到对应的措施,比如代理 IP 池、单位时间请求次数阀值等的判定;
    3. 爬虫为了提高效率可能需要用到分布式爬虫、多线程爬虫;
    4. 需要处理常见的反爬虫措施,需要读对一些 JS 代码保持敏感(目前前端工程的构建方式主要是 webpack 之类,所以代码混淆过的);
    5. Node.js 做爬虫开发,可以了解下这个项目。puppeteer

    对于真的需要了解前端开发方面的知识,可以看看这个文章:从Vue.js谈谈前端开发技术演变

      相似问题
      推荐文章