Scrapy循环爬取

发布于
2017-11-08

想要对一个页面进行监控，这个页面是有分页，目前实现了所有分页的抓取，那么想要回到第一个分页来监控，请问怎么写。

        if len(response.css('li.next.disabled a::attr(href)').extract()) == 0:
            next_page = response.css('li.next a::attr(href)')[0].extract()
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)
        else:
            yield scrapy.Request(self.start_urls[0], callback=self.parse)

上面的代码会报错：

no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)

如何使出现异常仍然可以继续进行呢？
谢谢

python scrapy

阅读 4.8k

3 个回答

得票最新

勤奋的懒人

727139

发布于
2017-11-09

使用try语句

熊孩子

发布于
2017-11-09

新手上路，请多包涵

try：

except...

xixi

252

发布于
2017-11-09

更新于
2017-11-09

使用try语句捕获异常

try:
   ...
except Exception, err:
   pass

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Scrapy循环爬取

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？