搜索引擎蜘蛛一般指网络爬虫,又称为网页蜘蛛或网络机器人,是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。
百度蜘蛛(baiduspider),是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
百度蜘蛛并没有公布自己的 IP 地址段,我们在运营网站的时候,经常会遇到假冒爬虫来抓取我们的网站,这个时候我们就需要通过一些工具来识别这些爬虫是真正的 baiduspider 还是 fake baiduspider(伪造百度蜘蛛,或者伪造 baiduspider),爬虫识别站长在运营过程中总结和归纳了 baiduspider 的爬虫 IP 地址段与 ASN,希望可以帮到大家。
baiduspider ASN
如果不知道真么查询某个 IP 的 ASN,我们可以使用 IP 地址查询查询 IP 具体的 ASN。
baiduspider IP 地址段以及归属地
- 61.135.0.0/16 北京市联通
- 123.125.0.0/16 北京市联通
- 111.206.0.0/16 北京市联通
- 180.76.0.0/20 香港百度云
- 180.149.128.0/19 北京市电信
- 220.181.0.0/16 北京市电信
- 36.110.128.0/17 北京市电信
- 124.164.0.0/14 山西省阳泉市联通
- 116.179.0.0/16 山西省阳泉市联通
- 180.97.0.0/18 江苏省南京市电信百度网讯
上面并不是所有的 IP 地址段都是 baiduspider 的 IP,里面可能有一部分 IP 是 baiudspider 的 IP,如果在此 IP 地址段中,不确定是不是 baiduspider 的 IP 地址,可以到爬虫IP查询确认一下。
同时提供 CIDR 转换 IP 地址段工具将 IP 地址段转换成 IP 范围。
baiduspider User-agent
- Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
- Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
- Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
- Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
此处只列举出这些,更多的可以到 Baiduspider 查询。
总结
这篇文章主要介绍了 baiduspider 的 IP 地址段、ASN 和 User-agent 等信息,通过以上信息可以避免在运营网站的过程中将 baiduspider 正确的 IP 误判,同时也可以避免将伪造 baiduspider 的爬虫放过。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。