
一:robots.txt协议
1、允许所有搜索引擎访问 User-agent: * Allow:
2、禁止所有搜索引擎访问 User-agent: * Disallow: /
3、网站地图:Sitemap:
1、Disallow:意思是定义禁止抓取的地址
就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。我拿我的博客站为例,它的正确的写法如下:
Disallow: / 禁止蜘蛛抓取整站(一定不能这么写)
Disallow: /wp-admin/ 禁止抓取网站中带wp-admin的文件夹。
Disallow: /page/ 禁止抓取网站中带page的文件夹。
Disallow: /*?* 禁止抓取网站中的所有动态路径。
Disallow: /.js$ 禁止抓取网站中的所有带.js的路径。
Disallow: /*.jpeg$ 禁止抓取网站中所有jpeg图片
2、Allow:意思是定义允许抓取收录地址
这个就不需要多说了就是允许的意思,在robots文件中不写Allow意思就是默认的允许。大家不必再写了。
3、认识一些语法符号
/ 如果只是一个单个/,搜索引擎会认为是根目录
* 是所有的意思;例如:Disallow: /*.jpeg$ 是禁止抓取网站中所有jpeg图片
$ 是结束符
三、需要注意的细节:
1、一定不要写绝对路径,就是不要带我们网站域名。用/代替就可以。
2、注意robots文件中的所有符号都是在英文状态下写的,比如:Disallow: /wp-admin/ 中“:”是英文状态下的。
3、注意空格;例如:Disallow: /wp-admin/ 中”:”后面紧跟着是一个空格;
4、注意大小写;例如:Disallow: /wp-admin/中Disallow的“D”是大写的。
5、robots是有生效时间的,是由百度决定的,几天或者两个月以内,所以,一定不要随便屏蔽整站。
6、还有一点要弄清楚的就是:
Disallow: /help 意思是禁止蜘蛛访问/help.html、/helpabc.html、/help/index.html所有的带help的文件及文件夹。
Disallow: /help/则是禁止蜘蛛访问/help/index.html这种形式的路径,允许访问/help.html、/helpabc.html,这两个是不一样的,大家要记清楚。

我的学习路程:网站搭建 织梦仿站教程 seo教程
2019年医疗seo该怎么去做(总结)
网站降权的原因和解决降权的方法
seo中“nofollow”标签用法的详细解析
老域名做网站的价值
用Archive.org如何查询老域名历史存档
比较好用的主机推荐
购买域名必须注意要点