scrapy爬取Drupal网站,提示404错误

2019-03-12
阅读 1 分钟
2.7k
最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊,在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。然后我的目标网站是个drupal做的。分页抓取的时候,首页是正常的,爬取第二页的时候,大概率是抛错提示:404,要么就是给我返回了一些脏数据。