需求是抓取淘宝客户端特定页面数据,看了下是https请求。试图用 Charles 抓包,也在手机导入了证书,但是只有一些 GET 和 POST的请求正常解析了,还有大量 API 是用的 connect 方式,解析乱码,请问这个该怎么做,大家有遇到过这种需求么?
需求是抓取淘宝客户端特定页面数据,看了下是https请求。试图用 Charles 抓包,也在手机导入了证书,但是只有一些 GET 和 POST的请求正常解析了,还有大量 API 是用的 connect 方式,解析乱码,请问这个该怎么做,大家有遇到过这种需求么?
4 回答4.5k 阅读✓ 已解决
1 回答3.4k 阅读✓ 已解决
4 回答3.9k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.6k 阅读✓ 已解决
2 回答511 阅读✓ 已解决
1 回答4k 阅读✓ 已解决
今天找到一点思路,淘宝移动站和手机客户端没有什么差异,至少我要的几个页面上看的话,所以 m.taobao.com 相对容易很多,能直接通过开发者工具看到请求及相关参数,看了下一些页面接口带有时间戳还有验证口令,试了下他的口令有效期很短甚至可能就是单词有效,所以想要通过破解 口令去抓数据难度相当大。因此还是 采用了 selenium + phantomjs + python 的方案模拟前端正常浏览器去请求接口。