用scrapy爬虫结合什么第三方解析js动态加载网页比较好？

弱菜傻呆

发布于
2015-02-11

要爬的网站是写的很规范的数据库网站。
在从目录条目加载到到详情页面过程，查看了一下javascript后发现是通过数据库查询完成的。
整个网站条目有上千万，所以需要考虑到效率问题。
我知道已知的方案有selenium，phantomjs。
求指点。

scrapy selenium javascript 网页爬虫 python爬虫

阅读 12.5k

3 个回答

啊呜一口

发布于
2015-02-12

更新于
2015-02-12

✓ 已被采纳

方案1：

打开调试工具研究ajax请求，找到规律后自己仿照着发送

方案2：

关键字 headless

请参考stackoverflow上的一个提问
Headless Browser and scraping - solutions

你看到PhantomJS的出现频率，应该知道怎么选了吧。

当然，CasperJS的API比较舒服一点

发布于
2015-02-11

研究一下ajax的规则，然后带上cookie抓

发布于
2015-09-24

https://github.com/scrapinghub/scrapy-splash

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题