使用七牛云储存后,屏蔽百度蜘蛛抓取,但是百度展示不了图片

新手上路,请多包涵

问题是这样,如图:
图片抓取失败

是这样的效果,感觉很不好啊。

如果我在七牛空间的robots.txt里面,对这抓取的图准许抓取,是不是会好一些,例如
User-agent: *
Disallow: /
Allow: /pgdtcz.qiniudn.com/wp-content/uploads/2014/03/281.jpg
Allow: /pgdtcz.qiniudn.com/wp-content/uploads/2014/03/1811.jpg
我这样写是不是可以让他抓取到图片呢
顺便说下,网址是www.pgdtcz.com 大家可以搜索看下效果,谢谢

阅读 5.8k
2 个回答

关于allow中的用法:
Allow:/filepath
不建议拼接URL
形如 /pgdtcz.qiniudn.com/wp-content/uploads/2014/03/281.jpg
spider将会爬取 yourdomain.com/pgdtcz.qiniudn.com/wp-content/uploads/2014/03/281.jpg,这个url是404.

所以建议您:
1 优化bucket中的robots文件,如下
User-agent: *
Disallow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Baiduspider-image
Allow: /

2 调整Allow中的写法,
使用
Allow:/wp-content/uploads/2014/03/281.jpg

3 检查是否配置了防盗链功能,防盗链功能会影响外部引用的正常显示。

希望这些信息有帮助。
附上参考文档:http://www.robotstxt.org/robotstxt.html

在空间中设置robots.txt的目的主要是避免搜索引擎通过镜像抓到页面等影响seo、pr值,甚至被误认为作弊的内容。
目前我们提供的默认robots.txt所使用的策略是拒绝所有的爬取行为。
可以根据自己的实际情况开放某些路径的爬取,或者对google、baidu的图片爬虫开放,比如

User-agent: *
Disallow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Baiduspider-image
Allow: /

上述内容仅作为参考,具体的写法请进行一下查询及确认

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进