(十)robots的使用及写法(新手必看)

优质老薛主机推荐:15%终身付款折扣:xwseo15 25%首次付款折扣 : xwseo115 点击下图进入购买
  网站蜘蛛抓取协议:也叫robots协议,也是互联网对于蜘蛛抓取的协议,告诉所有的搜索引擎哪些网站内容可以抓取,哪些不能抓取。那么对于网站robots.txt新手肯定会有很多不明白的地方,今天小魏谈seo织梦建站为新手分享关于obots的使用及写法,希望对于新手有所帮助。
  那么对于搜索引擎来讲可以单向的遵守,也可以不遵守,也就是说理论上是按照协议必须遵守,但是实际上搜索引擎不一定完全遵守。
  那么robots文件写好了,传在网站根目录,会立即生效吗?不一定,是有时间周期的,搜索引擎可能在你今天写好,明天遵守,也可能是1~30之内遵守,那么这样是不是就不用写robots协议了呢?
  不是的,因为不写,我们网站有些没用的内容也被抓取,对于用户和优化是不利的,还有网站的登录页面不能被抓取,防止网站被利用,所以网站robots协议必须严格书写。
robots写法
                                                                                                                                                                                              以织梦作为案例
  robots书写不但要严格,一旦书写错误,会导致网站不能收录,或者收录减少,对于网站优化是不利的。
  小魏先给大家解释一下其中的写法。

 一:robots.txt协议

1、允许所有搜索引擎访问 User-agent: * Allow:

2、禁止所有搜索引擎访问 User-agent: * Disallow: /

3、网站地图:Sitemap:

二:robots.txt的写法

1、Disallow:意思是定义禁止抓取的地址

就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。我拿我的博客站为例,它的正确的写法如下:

Disallow: / 禁止蜘蛛抓取整站(一定不能这么写)

Disallow: /wp-admin/ 禁止抓取网站中带wp-admin的文件夹。

Disallow: /page/ 禁止抓取网站中带page的文件夹。

Disallow: /*?* 禁止抓取网站中的所有动态路径。

Disallow: /.js$ 禁止抓取网站中的所有带.js的路径。

Disallow: /*.jpeg$ 禁止抓取网站中所有jpeg图片

2、Allow:意思是定义允许抓取收录地址

这个就不需要多说了就是允许的意思,在robots文件中不写Allow意思就是默认的允许。大家不必再写了。

3、认识一些语法符号

/ 如果只是一个单个/,搜索引擎会认为是根目录

* 是所有的意思;例如:Disallow: /*.jpeg$ 是禁止抓取网站中所有jpeg图片

$ 是结束符

三、需要注意的细节:

1、一定不要写绝对路径,就是不要带我们网站域名。用/代替就可以。

2、注意robots文件中的所有符号都是在英文状态下写的,比如:Disallow: /wp-admin/ 中“:”是英文状态下的。

3、注意空格;例如:Disallow: /wp-admin/ 中”:”后面紧跟着是一个空格;

4、注意大小写;例如:Disallow: /wp-admin/中Disallow的“D”是大写的。

5、robots是有生效时间的,是由百度决定的,几天或者两个月以内,所以,一定不要随便屏蔽整站。

6、还有一点要弄清楚的就是:

Disallow: /help 意思是禁止蜘蛛访问/help.html、/helpabc.html、/help/index.html所有的带help的文件及文件夹。

Disallow: /help/则是禁止蜘蛛访问/help/index.html这种形式的路径,允许访问/help.html、/helpabc.html,这两个是不一样的,大家要记清楚。

赞 (0)
分享到:更多 ()

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址