Python爬虫： [urllib2.HTTPError: HTTP Error 403: Forbidden]

RahnX

12251517

发布于
2014-04-16

昨天爬豆瓣，没有出现过错误，今早爬成功了一次，接着全部报错。
个人推测，问题在于网站禁止爬虫，如何伪装成浏览器访问？
根据这个stackoverflow答案改写，没有成功，仍然出现Error 403

python 网页爬虫网络爬虫

阅读 35.2k

4 个回答

得票最新

limbo

236224

发布于
2014-04-19

不要爬页面了，直接爬api更速度，http://developers.douban.com/wiki/?title=guide

上面说每分钟40次可以忽视，实际上爬出的速度很快的，1小时用python能爬3W+本书吧，不过有时会封IP，不过过一段时间就好了

callmewhy

97051116

发布于
2014-04-19

我最近在写一个Python的开源爬虫工具包，里面有模拟浏览器和模拟手机的header的封装：
http://blog.csdn.net/pleasecallmewhy/article/details/24021695

关于怎么模拟header这样应该就可以：

import urllib  
import urllib2  

url = 'http://www.baidu.com'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
req = urllib2.Request(url,  headers)  
response = urllib2.urlopen(req)  
the_page = response.read()

luoyetx

611

发布于
2014-04-20

伪装成浏览器的话，主要还是header里的User-Agent字段
另外 requests 这个库用来写爬虫是相当不错的

liuzhe

801

发布于
2014-04-20

照着浏览器中request headers 的信息伪装下，注意加上抄上cookie的内容。还要注意抓取速度，太快会被发现。还有就是注意程序中的输出log，发现403的话（注意程序中对错误url的retry），打开浏览器刷下下豆瓣，输入提示的验证码，因为同一个cookie的这么多次的请求也会被发现的。
当然api能提供的信息，就使用api。上述是要获取信息，api不提供时不得已的方法。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Python爬虫： [urllib2.HTTPError: HTTP Error 403: Forbidden]

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

请问一下，如何理解reduce函数呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？