知道一个微信公众号以后,如何采集指定的文章?

这是逻辑思维的微信公众号地址:
http://mp.weixin.qq.com/profile?src=3&timestamp=1475768533&ver=1&signature=WuQBZj2062fY9CO-nA8EqWxenuWJ9MUgKYKLX7rK9bkJ7KN1uJm62tWYcvV2CrZ4vryVP7*yYBuEqTXVFRJzOQ==

但是我是通过weixin.sogou.com这个通过公众号名称搜索进去,然后获取到对应的网址的.
但是这样感觉非常麻烦,因为搜狗的反爬虫做得很厉害,时不时出现验证码不说,还要换ip~
如果这样,等于是要放请求一次了~

有没有比较好的方法,可以直接构建出公众号的请求网址..
对了顺便问下,这个采集微信的文章,一定要:

  1. 大量的代理ip?

  2. 验证码识别?

阅读 7.5k
3 个回答

你给的公众号的地址其实存在过期的可能,有时间戳,有签名,存在不能打开的可能性。

新手上路,请多包涵

搜狗的反爬虫确实厉害,但是出现验证码不是坏事,反而是好事,从无奈的角度。。。之前设计的过程是使用:requests抓取搜索结果,得到具体的网页url,然后抓取里面内容。为了防止出现验证码导致内容抓取不完全,最后是通过添加判断页面是否进入验证码界面来调用虚拟浏览器,人工填入验证码,当然这个部分你可以使用opencv之类的,进行图像识别,主要看划算不划算。
PS:已经使用过代理和大量IP了,都没有上述方法好用。而且实际上,出现验证码次数不多,而通过代理ip等基本上次次出现验证码,不知道搜狗的反爬虫策略是什么,有点厉害啊。
还试验过,代理+tor的 不过最后还是不行。。。

试试神箭手云爬虫平台的微信公众号文章[多公众号] 采集爬虫支持云端自动采集,实时更新~
爬虫链接:http://www.shenjianshou.cn/in...

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题