采集微信公众号文章遇到的问题!?

Question

采集微信公众号文章遇到的问题!?

发布于
2016-10-07

代码很简单:

import requests
url = "http://weixin.sogou.com/weixin?type=1&query=luoji"
for i in range(1,200):

    headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36",
               "Referer":"http://weixin.sogou.com/weixin?type=1&query=luojisw"
               }
    response = requests.get(url,headers=headers)
    print ("罗技" in response.content.decode())

因为一开始访问的比较猛,所以访问了大约12个页面以后,就被禁止掉了.
但是很奇怪,本地的浏览器都可以正常访问!?~~??一般封ip不是连我这个都禁止了~??

现在不管怎么修改,(完全模拟他的浏览器头),采集的话,也会出现空页面....如何才能顺利的采集下去?

python 网页爬虫采集 python3.x

阅读 3.7k

1 个回答

得票最新

同意并接受

7.2k21127

发布于
2016-10-07

用 requests.Session ，它会自动管理cookie

>>> import requests as r
>>> ssn = r.Session()
>>> ssn.headers = headers # 尽量补齐必须的头信息
>>> rsp = ssn.get(url)

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

采集微信公众号文章遇到的问题!?

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何使用 python 代码实现迅雷磁力链接资源的下载？

如何实现一个深拷贝函数？

请问，FastAPI如何获取到前端上传的二进制文件并且返回？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

Python 成员变量在多个子类实例间共享，如何避免？