Python:推荐爬虫框架

想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~
另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维?

阅读 39.2k
7 个回答

scrapy是python里面比较好的爬虫框架。支持自定义Item,pipeline数据管道。在spider中可以指定domain,以及相应的Rule规则,支持xpath对DOM的解析等内容
而且scrapy还有自己的shell,可以在上面方便调试和查看结果。总之内容很多,功能很强大...

基本上scrapy做的已经非常完善了。不过不支持动态载入js解析js中的ajax请求。scrapyjs在此基础之上实现了模拟浏览器动态行为。

我写的这个配置文档
包括了Windows和CentOS 6.4下面的配置过程。可以作为一个参考。(不过有些库是我自己用到的,不一定需要安装..比如upyun...progressbar神马的)

scrapy略重型了,如果自己写的话,可以用自带的urllib2,也可以用requests,解析可以使用lxml,BeautifulSoup,实现动态解析,还有splinter等框架,还可以用threading模块实现多线程,或者使用协程框架gevent。

新手上路,请多包涵

神箭手云爬虫

Scrapy很好用 但是我自己一般用requests写

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏