网站首页 » 网站运营 » 搜索引擎 » robots.txt禁止搜索引擎收录的方法
上一篇:
下一篇:

robots.txt禁止搜索引擎收录的方法

很多时候我们在运营网站的时候有些页面不想让搜索引擎收录,不想对外公开及不让搜索引擎收录。那要怎么做呢。要想实现不让搜索引擎收录某些页面,我们可以使用robots.txt来禁止搜索引擎对你网站页面的收录。

robots(又称spider),是搜索引擎用来自动访问互联网上的网站页面并获取网页信息的一种程序。不过这个robots程序像人一样会按规范来做事的。它所遵循的规则就写在robots.txt文件里面。 所以我们可以通过编辑robots文件来限制搜索引擎蜘蛛来爬行某些页面。那么要怎么设置呢?

百度官方对robotx.text的介绍

“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“:”。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字,在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在”robots.txt”文件中,”User-agent:*”这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如”Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow: /help/”则允许robot访问/help.html,而不能访问/help/index.html。
任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

robots.txt文件怎么写?

禁止所有搜索引擎访问网站的任何部分 User-agent: *
Disallow: /
允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt" file)
User-agent: *
Disallow:
禁止某个搜索引擎的访问 User-agent: BadBot
Disallow: /
允许某个搜索引擎的访问 User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /
举个例子:
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent:后的* 具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /tmp/*" or "Disallow: *.gif"这样的记录出现.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

robots.txt文件放在哪里?

robots.text文件要放到网站的根目录下,搜索引擎蜘蛛访问你网站时会首先检查你的网站根目录下是否含有robots.text文件,如果有则按robots文件里的规则来确定它的访问权限范围。

  • 微信扫一扫,赏我

  • 支付宝扫一扫,赏我

声明

原创文章,不经本站同意,不得以任何形式转载,如有不便,请多多包涵!

本文永久链接:http://yunkus.com/robots-forbidden-search-engine-site-contains/

Leave a Reply

Your email address will not be published. Required fields are marked *

评论 END