营销型网站Robots协议是什么,标准写法是?

什么是营销型网站Robots协议
 
Robots是网站和搜引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被索引到的页面或内容。早期是为了防止搜索引擎抓取网站的一些隐私页面,不想公开展示的页面,Robots的作用已经不在局限于网页的隐私了,如今已经是作为学习SEO的一个最基础的范畴,能够有效提高网站的健康度、纯净度,降低网站垃圾内容收录
 
Robots协议语法解析
 
User-agent:  是定义搜索引擎的,指定搜索引擎的爬取程序,如果想定义所有搜索引擎请用 * ,
记住他不能单独使用,他要配合前面两个语法使用(随便一个就行了)
 
Disallow:是禁止搜索引擎抓取的路径。注意: / 表示根目录 (代表网站所有目录)。Disallow禁止搜索引擎把我们的网页放出来,就是我们不允许搜索引擎收录,请记住是不允许搜索引擎收录,并不代表他不能爬取了。这是两个概念,他还是能爬的,他不是命令,他只是协议
 
Allow:是允许的意思,但需要注意:  他的使用一般都是结合Disallow他不能单独出现,意思是禁止爬取那个内容,加上Allow后意思是,除了可以爬取这个外其余的都禁止!
 
常见的搜索引擎蜘蛛
 
由于互联网上蜘蛛有进200多种搜索引擎蜘蛛,但你需要知道的几个常见的蜘蛛:
百度蜘蛛:Baiduspider
谷歌机器人:Googlebot
360好搜: 360spider
SOSO蜘蛛:Sosospider
雅虎的蜘蛛 Mozilla
微软bing的蜘蛛:msnbot
 
Robots协议的应用
 
应用1: 屏蔽所有搜索引擎爬取网站的语法:
User-agent: *
Disallow: /
应用2:允许所有搜索引擎爬取网站所有内容
User-agent: *
Disallow:
应用3:只禁止百度抓取你网站的内容
User-agent: Baiduspider
Disallow: /
应用4:只允许百度抓取你网站的内容
User-agent: Baiduspider
Disallow:
User-agent: *
disallow: /
 
语法的细节使用
 
冒号后面有空格,这是要严格遵守的,语法的第一个字母大写
 
语法的搭配使用
 
User-agent  放在第一,起到定义搜索引擎,意思就是之后的语法是针对User-agent 定义所在的搜索引擎有效的文件夹的使用( 没有斜杠跟有斜杠他有什么区别)
知识点: /   单一的斜杠代表 根目录,辅助使用,就是具体的一个目录了
重   点:
Disallow: /SEO/  与 Disallow: /SEO  的区别?
Disallow: /SEO/  禁止搜索引擎抓取该网站的SEO目录 , /SEO/ 有斜杠的含义是代表蜘蛛不要来收录我们的SEO文件夹这个目录下面所以的页面
而 Disallow: /SEO  不带斜杠他代表的意义就多了,表示不但禁止搜索引擎抓取该网站的SEO目录,还能够禁止所有以SEO开头的目录名和文件名开头的网址。
营销型网站