想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~
另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维?
想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~
另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维?
3 回答3.1k 阅读✓ 已解决
2 回答1.9k 阅读✓ 已解决
2 回答1.3k 阅读✓ 已解决
2 回答1.8k 阅读✓ 已解决
4 回答1.8k 阅读
3 回答1.7k 阅读
1 回答1.4k 阅读✓ 已解决
scrapy是python里面比较好的爬虫框架。支持自定义Item,pipeline数据管道。在spider中可以指定domain,以及相应的Rule规则,支持xpath对DOM的解析等内容
而且scrapy还有自己的shell,可以在上面方便调试和查看结果。总之内容很多,功能很强大...
基本上scrapy做的已经非常完善了。不过不支持动态载入js解析js中的ajax请求。scrapyjs在此基础之上实现了模拟浏览器动态行为。
我写的这个配置文档
包括了Windows和CentOS 6.4下面的配置过程。可以作为一个参考。(不过有些库是我自己用到的,不一定需要安装..比如upyun...progressbar神马的)