如果从url从list页面开始,在list也抓取标题等信息后,遍历取到的list根据标题进入到详细页里,这个详细页里的有多页url需要跟进(例如:一篇文章有1,2,3页),这时该怎么办?,item又该怎么处理呢?
例如百度贴吧,从首页list!
在这里抓取相关信息后进入帖子抓取所有楼
这时这里有分页,这该怎么处理?
如果从url从list页面开始,在list也抓取标题等信息后,遍历取到的list根据标题进入到详细页里,这个详细页里的有多页url需要跟进(例如:一篇文章有1,2,3页),这时该怎么办?,item又该怎么处理呢?
例如百度贴吧,从首页list!
在这里抓取相关信息后进入帖子抓取所有楼
这时这里有分页,这该怎么处理?
你好,我和你遇到了相同的障碍,但是item保存我可以帮你解决。
格式如下:
在list界面使用
yield Request(url='详情页链接',callback=self.detail_parse(detail_parse是详情页解析),mata{'item':item})
在detail_parse方法内使用
item = response.meta['item']
进行接收,这样两个方法就共用了一个item变量
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
这个很简单啊,scrapy进行了start_request之后会默认用parse方法解析,当然你也可以定义其他方法解析,然后再parse方法中,解析获取到具体详情页的链接,然后再次
yield Request(url='详情页链接',callback=self.parse)
这种形式循环的取下一页,但是这里会有个坑,不过我看你两层应该差不多了,就懒得提这个坑了。