爬取网页,被拦截问题

描述:

爬取网页列表,每次大概请求20次的时候就会出错。
程序报错退出,实际页面上将跳转到图片验证机器人的地方,这个怎么办?
至少希望在完成认证后,能接着上一次的请求继续执行。

代码:

def handle(self):
    request = urllib.request.Request(self.url,headers=self.headers)
    response = urllib.request.urlopen(request)
    print(response)
    html=response.read()

报错:

urllib.error.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.

苦恼

目前是每次请求15条,循环执行。失败后,手动验证并对循环+1,再执行。
阅读 2.5k
1 个回答

尝试把url存到一个数组里,然后出现验证的时候,用try和expect 规避、
同时跳过验证的时候,读取数组的最后一个值,然后+1,然后继续访问呀

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏