scrapy内容分页抓取

一些网站的内容篇幅太长，分成多个分页，这样可以提高网站的PV量，抓取的时候就要写分页抓取规则，这个到简单，在scrapy用yield request方式抓取分页内容，（到现在都还没弄懂生成器是啥玩意。汗）怎么把这些内容合并成一篇完整的文章？目前我就卡在这个位置2天了一直尝试用优美的办法解决，但是无果，而且目前没有任何文章介绍这块的真奇怪。。难道大家都不抓取分页么。

已经用scrapy内置功能解决了！

scrapy

阅读 5.9k

2 个回答

得票最新

fidllrldf

1.1k11214

发布于
2015-08-11

✓ 已被采纳

我的实现是先抓取后再根据抓取的结果合并, 我并不想scrapy做太多的事情.
例: 我在抓取一个书籍试读网站时, 先抓取他的分页页码并批量下载页面. 然后根据分页信息进行合并.

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进