scrapy内容分页抓取

一些网站的内容篇幅太长,分成多个分页,这样可以提高网站的PV量,抓取的时候就要写分页抓取规则,这个到简单,在scrapy用yield request方式抓取分页内容,(到现在都还没弄懂生成器是啥玩意。汗)怎么把这些内容合并成一篇完整的文章?目前我就卡在这个位置2天了一直尝试用优美的办法解决,但是无果,而且目前没有任何文章介绍这块的真奇怪。。难道大家都不抓取分页么。

已经用scrapy内置功能解决了!

阅读 5.9k
2 个回答

我的实现是先抓取后再根据抓取的结果合并, 我并不想scrapy做太多的事情.
例: 我在抓取一个书籍试读网站时, 先抓取他的分页页码并批量下载页面. 然后根据分页信息进行合并.

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进