遇到页面防爬，返回页面说需要验证是否是机器人输入验证码这种情况要怎么处理？这时候这个页面返回的是200，爬虫认为正常爬过页面了，但是实际并没有获得有效数据。是通过判断抓没抓到数据，然后抛异常重新爬吗？这种情应该怎么处理不知道我通过抛异常重爬这种方法是否正确？

pyspider 遇到防爬页面怎么处理？

遇到页面防爬，返回页面说需要验证是否是机器人输入验证码这种情况要怎么处理？这时候这个页面返回的是200，爬虫认为正常爬过页面了，但是实际并没有获得有效数据。
是通过判断抓没抓到数据，然后抛异常重新爬吗？这种情应该怎么处理

不知道我通过抛异常重爬这种方法是否正确？

阅读 6.1k

4 个回答

得票最新

✓ 已被采纳

抛出异常，让 pyspider 自己重试（前提是没被封 ip）

你可以先验证本页面是否需要验证码，如果不需要直接爬；需要的话就把这个地址存下来。
当你的爬虫爬完了所有的地址，回过头再来处理这些需要需要的验证码的地址。

同时，为什么会出现爬虫被发现，我觉得你应该手工去访问几个页面，看看在headers里面是否有某些特定信息，包括不限于Rerferer。同时你需要注意：

代理IP qiyeboy/IPProxys
模拟UA
适当的休眠

我觉得你应该还是去用浏览器访问试试，看看header里面会不会出现特定的信息，还有去看看网页源码有没有什么js的限制

朋友一个很二的限制爬虫方法：不加载favicon就被认定为爬虫2333

我认为应该加上相应的header信息，伪装成浏览器来进行访问。

使用代理ip来抓取网页吧，我个人觉得sleep()或者更换header信息都没什么用，因为有的网站是限制你ip在一段时间内的访问量，但网上那些代理ip的存活率很低，好做法是维护着一个代理池，把抓取的ip可以用的维护，不可用的去除，但效率真的不好

撰写回答

推荐问题

相似问题

找不到问题？创建新问题