CrawlSpider循环抓取网页

发布于
2018-03-22

在用CrawlSpider进行爬取网页新闻的时候我定义的rules是这样的
图片描述

现在遇到的问题是在这些网页中有的有‘下一页’按钮，而按钮的跳转链接是相对的，比如是page2.html这类的，这样的链接不符合我定义的正则提取规则，导致第二页的页面抓取不下来，请问可以怎么修改呢？拜托拜托大家了

python scrapy 网页爬虫

阅读 2.4k

1 个回答

勤奋的懒人

发布于
2018-03-22

✓ 已被采纳

rules是Rule的列表，所以你可以放多个规则不同的Rule

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题