爬取微信公众号的文章,使用哪种方式比较好

最近遇到了一个问题,想要获得微信公众号的历史信息也就是文章,然后我再网上找了一些资料,大概有两个,一个是调用微信搜狗的方法,一个是用代理服务器https://zhuanlan.zhihu.com/p/...。然后微信搜狗可能有验证码或者封ip的问题,而且因为微信的信息是对外屏蔽的,也就是不能再浏览器端打开那个历史信息页面,所以我不是很清楚使用什么方法会更有效点,或者说用Python是不是能解决类似的问题,听说py的爬虫是挺有名的,所以我想请教一下我该如何解决这个问题?谢谢

阅读 4.2k
2 个回答

都可以的,curl也可以,腾讯防爬虫技术确实很厉害,可能你会需要打码

新手上路,请多包涵

两种方式都可以,但是搜狗那个方案下要考虑验证码和IP被封的问题,很容易触发反爬策略,第二种方式也就是中间人模式,这个比较稳定,但是就是速度慢了点,爬的时间长了会被封(不能24小时不停的爬),会提示操作频繁,要等至少12个小时才能再用,另外一个比较明显的缺陷就是搜狗其实收录的公众号并不全,例如你试试搜“招商银行”,搜搜谁搜不到官方账号的,手机端是可以的

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题