爬取网页，被拦截问题

Question

爬取网页，被拦截问题

发布于
2018-11-08

描述：

爬取网页列表，每次大概请求20次的时候就会出错。
程序报错退出，实际页面上将跳转到图片验证机器人的地方，这个怎么办？
至少希望在完成认证后，能接着上一次的请求继续执行。

代码：

def handle(self):
    request = urllib.request.Request(self.url,headers=self.headers)
    response = urllib.request.urlopen(request)
    print(response)
    html=response.read()

报错：

urllib.error.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.

苦恼

目前是每次请求15条，循环执行。失败后，手动验证并对循环+1，再执行。

python

阅读 2.5k

1 个回答

得票最新

小无奈

3218

发布于
2018-11-09

尝试把url存到一个数组里，然后出现验证的时候，用try和expect 规避、
同时跳过验证的时候，读取数组的最后一个值，然后+1，然后继续访问呀

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

爬取网页，被拦截问题

你尚未登录，登录后可以

有一种算法存在返回真，不存在返回假的高性能算法，我忘记是什么了?

duckdb 的 python sdk 读取 csv 的时候，如何指定列的字段类型？

为什么 pypi 的页面上的新版本在通过 pip 获取不到？

请问在一个项目中一般是创建多个ioc容器，还是一个ioc容器？

python这句代码是什么意思？

我写的python单例 init会调用多次如何解决?

使用anaconda.navigator的时候，新建一个python的环境：那么会有推荐的python包。这些包我们默认应该安装还是不必管呢？

爬取网页，被拦截问题

你尚未登录，登录后可以

有一种算法 存在返回真，不存在返回假的高性能算法，我忘记是什么了?

duckdb 的 python sdk 读取 csv 的时候，如何指定列的字段类型？

为什么 pypi 的页面上的新版本在通过 pip 获取不到？

请问在一个项目中一般是创建多个ioc容器，还是一个ioc容器？

python这句代码是什么意思？

我写的python单例 init会调用多次 如何解决?

使用anaconda.navigator的时候，新建一个python的环境： 那么会有推荐的python包。这些包我们默认应该安装还是不必管呢？

有一种算法存在返回真，不存在返回假的高性能算法，我忘记是什么了?

我写的python单例 init会调用多次如何解决?

使用anaconda.navigator的时候，新建一个python的环境：那么会有推荐的python包。这些包我们默认应该安装还是不必管呢？