网站建设中的robots.txt协议的作用及写法

  在网站建设和网站优化中,robots协议都是必不可少的一部分。很多建站程序在完成建站后,网站根目录中都有robots.txt协议文件。原本robots协议的设立与优化并无太大关系,但随着互联网的发展,robots.txt文件也被纳入了优化因素的范畴,因此天津网站建设认为,掌握并了解它有备无患。

一、什么是robots.txt协议文件

Robots.txt 是网站和搜索引擎的协议的纯文本文件,,当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robot.txt,如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。Robots 放在空间的根目录。

二、Robots.txt协议文件的作用

  搜索引擎访问一个网站的时候,最先访问的文件就是robots.txt。它告诉搜索引擎蜘蛛,哪些网站页面可以被抓取,哪些禁止抓取。表面来看,这个功能作用有限。从搜索引擎优化的角度来看,可以通过屏蔽页面,达到集中权重的作用。

三、Robots.txt文件写作方法

1、语法概念

1User-agent,表示定义哪个搜索引擎,比如User-agent: Baiduspider就是定义百度蜘蛛。。如果是User-agent: *,那么“*”星号表示允许所有蜘蛛来抓取这个网站。

 需要注意,第一个英文要大写,冒号是英文状态下,冒号后面有一个空格。

2Disallow,表示禁止访问,使用方法如上文的User-agentisallow: /*禁止搜索引擎蜘蛛抓取整个网站

3Allow,表示运行访问。

2、路径后的斜杠使用

1Disallow: /images/ Disallow: /images,有斜杠是禁止抓取images整个文件夹,没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

2)屏蔽动态链接的方式

Disallow: /*=* Disallow: /*?* Disallow: /*&*,星号代表所有的字符,屏蔽所有带有等于号、问号、&号的链接(一定要有两个*)

3)屏蔽css文件和js文件的写法

Disallow: /.css$

Disallow: /.js$

4)屏蔽一个文件夹,但是又能抓取其中一个文件的写法:

/templets/qiche

Disallow: /templets

Allow: /qiche

屏蔽文件夹templets,但能抓取文件夹里的其中一个文件qiche

3、存放地点

  Robots.txt协议文件需放置在网站的根目录,且对字母大小有限制,文件名必须为小写字母。所有的命令第一个字母需大写,其余的小写。且命令之后要有一个英文字符空格。

四、注意事项

1、斜杠:/ 代表整个网站,如果“/”后面多了一个空格,则屏蔽整个网站。

2、不要禁止正常的内容

3Robots.txt协议文件生效时间是几天到两个月

4、应当屏蔽的页面:无用页面,如联系我们、用户协议等,这些页面相对于搜索引擎优化来讲,作用不大,此时需要使用Disallow命令禁止这些页面被搜索引擎抓取;动态页面,企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散;网站后台页面,同样属于无用页面。


您可能还喜欢

在线咨询返回顶部
0.0447s