作者:xiaoyu
微信公众号:Python数据科学
知乎:https://zhuanlan.zhihu.com/py...
本篇博主将和大家分享几个非常有用的爬虫小工具
,这些小工具在实际的爬虫的开发中会大大减少你的时间成本,并同时提高你的工作效率,真的是非常实用的工具。
这些工具其实是Google
上的插件,一些扩展程序,并且经博主亲测,无任何问题。最后的最后,博主将提供小工具的获取方式。
好了,话不多说,我们来介绍一下。
JSON-handle
1. 解读:
我们前面提到过,当客户端向服务器端提出<ajax>
异步请求(比如 <xhr>
)时,会在响应里返回 <json>
格式的数据。
在开发者工具中,我们会看到 <json>
格式数据的可视化效果很差,就是一段冗长的字符串,难以直接看出关键信息。
那么为了直接有效的找到关键信息,<JSON-handle>
工具会将繁杂的 <json>
格式数据变成简单清晰的树状图,极大的提高可视化效果。
2. 使用说明:
方法很简单,如果你已经安装好了小工具,点开图标弹出框框
,把<json>
数据复制
进去即可。
当然,你也可以把从任意地方拿来的<json>
数据放进去,不局限于浏览器异步响应。
3. 实例:
就以<天猫网站>
为例,随便找出一个异步的请求,response
是下面这样的。
jsonp_46336857({"201509290":{"data":[{"_pos_":1,"entityType":"13","acm":"201509290.1003.1.1286473","title":"【抢券减400】Apple/苹果iPhone X 全网通4G智能手机苹果10 苹果X","typ.......
把代码放进框框里,点击OK
,就变成下面这样了数(据比较长,只截取一部分)。
User-Agent Switcher
1. 解读:
上篇解读爬虫中HTTP的秘密(基础篇)我们介绍了请求头
,而这个工具就是针对请求头中的User-Agent
字段的。它的作用是可以随意更换浏览器的User-Agent。
比如,你用Chrome浏览器
浏览网页,浏览器默认身份
是Chrome
,但是你可以通过这个工具更换成其它任何身份。
这个最大的好处就是可以直接更换成手机身份
浏览网页,而不必用开发者工具来回切换。
2. 使用说明:
使用Chrome
浏览器安装插件,点开图标,选择你需要的身份即可。
3. 实例:
(默认Chrome浏览器是这样的)
(变换为IOS-iphone6)
Xpath-Helper
1. 解读:
针对Xpath
解析方法,Xpath-Helper
可提供当前网页指定Xpath语句的查询结果。
2. 使用说明:
点开图标,出现黑色框框。
- QUERY:Xpath语句
- RESULTS:查询结果
3. 实例:
1.假设目标为二维码下的<百度>
二字
2.开发者工具找到源码相应位置,右键copy xpath
3.复制到QUERY
里面,结果自动出来
注:Xpath-Helper
小工具安装后需要重启Chrome
方可使用,请大家注意一下这个坑。
安装方法
- 下载Chrome浏览器
- 下载小工具插件
- 打开Chrome更多工具—>扩展程序
- 拖动小工具插件程序<.crx>到扩展程序里
- 安装
安装完成后,右上角会有三个小图标:
获取方式
获取方式很简单,关注公众号<Python数据科学>
,发送<爬虫小工具>
,即可得到下载链接和密码。
希望对大家有帮助,更多精彩敬请期待!
如果想学习Python爬虫和数据分析,可以关注微信公众号Python数据科学
,发现数据之美。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。