79px - SegmentFault 思否

scrapy爬取Drupal网站，提示404错误

2019-03-12

阅读 1 分钟

2.7k

最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊，在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。然后我的目标网站是个drupal做的。分页抓取的时候，首页是正常的，爬取第二页的时候，大概率是抛错提示：404，要么就是给我返回了一些脏数据。