关于搜索引擎robots.txt的问题

新手上路,请多包涵

如果设置了不可通过浏览器输入URL可访问资源,会不会对设置的robots.txt有影响,换句话说,搜索引擎能不能访问URL的资源呢?

回复
阅读 3.3k
3 个回答

robots.txt只对搜索引擎有效,它所禁止爬虫的页面用户依旧可以访问,但是如果通过web服务器软件来禁用访问的话,那么搜索引擎和用户都是无法看到的~

robots.txt只是一个单方协议
打个比方,你有一套房子,但是房子所有门都开着,这是你在门口贴了一张纸:所有访客只能进客厅不能进卧室。你贴的这张纸就是robot.txt
一般情况下,当搜索引擎在抓取你网站时,是会先检索根目录下的robot.txt,查看哪些能爬取哪些不能。但是不是强制的,比如一些非正规的爬虫会忽视你的robot.txt。

你说的

设置了不可通过浏览器输入URL可访问资源
你是怎么设置的?

你说的不可通过浏览器输入URL可访问资源是不是类似于.htaccess,你可以通过类似于www.xxx.com/robots.txt能不能访问到你网站的robots.txt。
如果访问不到,搜索引擎的爬虫也爬不到。

宣传栏