怎么爬到网站未显示出来的那部分数据?

新手上路,请多包涵

尝试爬了一个国外的招聘网站www.indeed.com. 当选择了在美国的职位后,网页返回的搜索结果大概有3百万条。但是网页每次显示10条,最终有100页。 我用的python request 和beautifulsoup 能爬下这1000条数据。但是我的目标是爬下这近3百万条的数据。
期间尝试过先爬完显示的100页然后进行多次的循环,也就是反复的爬这100页。但是重复率很高。

有没有很好地解决办法能爬完所有的搜索结果(近300万的数据)?

阅读 3.6k
3 个回答

你需要自动化测试框架

使用selenium自动化测试框架,或者简单的,用splash,直接向splash发送请求,更推荐splash,更方便直接

新手上路,请多包涵

用post查询连接应该返回就是你需要的相关数据了
这是要用到的参数
q=java
jt=fulltime
start=210

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题