robots.txt

web相关

2011-01-18 09:38

robots.txt是什么？

　　robots.txt是一个必须放在根目录底下的纯文本文件，文件名必须全部是小写的字母即“robots.txt”，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

允许所有搜索引擎访问网站的所有部分

User-agent: *
Disallow:
或者
User-agent: *
Allow: /

　　禁止所有搜索蜘蛛抓取你网站的任何内容。

　　User-agent: * 引擎的名字 * 为所有

　　Disallow: / 屏蔽的目录

　　禁止所有搜索引擎抓取网站特定的一些目录。

　　User-agent: *

　　Disallow: /plus/count.php
　　Disallow: /include
　　Disallow: /news/old

　　禁止指定搜索引擎抓取你网站的所有内容。

　　User-agent: baiduspider

　　Disallow: /

　　仅允许指定的搜索蜘蛛抓取你网站的内容。

　　User-agent: baiduspider
　　Disallow:

　　作用5：禁止所有搜索引擎抓取你网站全部或者特定目录下的特定类型文件。

　　User-agent: *

　　Disallow: .jpg$
　　Disallow: .jpeg$
　　Disallow: .gif$
　　Disallow: .png$
　　Disallow: .bmp$

　　如果是仅禁止特定的搜索引擎，那么按照上面介绍的方法，将通配符*改为特定的蜘蛛名称就可以了。

　　作用6：禁止搜索引擎在搜索结果中显示网页快照，而只对网页建立索引。

　　要防止所有搜索引擎显示您网站的快照，请将此元标记置入网页的 <HEAD> 部分：<meta name="robots" content="noarchive">要允许其他搜索引擎显示快照，但仅防止百度显示，请使用以下标记：<meta name="Baiduspider" content="noarchive">注：此标记只是禁止百度显示该网页的快照，百度会继续为网页建索引，并在搜索结果中显示网页摘要。如果是Google的话，就是＜META NAME="googlebot" CONTENT="index,follow,noarchive"＞

User-agent:
该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

Disallow:
该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow:
该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。
需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。