要爬的网站是写的很规范的数据库网站。
在从目录条目加载到到详情页面过程,查看了一下javascript后发现是通过数据库查询完成的。
整个网站条目有上千万,所以需要考虑到效率问题。
我知道已知的方案有selenium,phantomjs。
求指点。
要爬的网站是写的很规范的数据库网站。
在从目录条目加载到到详情页面过程,查看了一下javascript后发现是通过数据库查询完成的。
整个网站条目有上千万,所以需要考虑到效率问题。
我知道已知的方案有selenium,phantomjs。
求指点。
10 回答11.2k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
2 回答2.7k 阅读✓ 已解决
3 回答2.3k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
2 回答2.6k 阅读✓ 已解决
方案1:
打开调试工具研究ajax请求,找到规律后自己仿照着发送
方案2:
关键字 headless
请参考stackoverflow上的一个提问
Headless Browser and scraping - solutions
你看到PhantomJS的出现频率,应该知道怎么选了吧。
当然,CasperJS的API比较舒服一点