深圳网站建设公司浅谈robots.txt写法及常见的错误总结

发表日期:2018-09-09 作者:小锐 浏览次数:

深圳网络公司你是如何利用robots.txt来规划你的网站的。

什么是Robots协议?

要写好robots.txt,并让搜索引擎蜘蛛按照我们要求的来爬行网站的内容,那么首先我们要了解的是robots的定义,什么是robots协议呢?首先单从robots来说是机器人的意思。在SEO搜索引擎优化这行来说,就是指的各个搜索引擎机器人类别。Robots.txt协议就是我们给搜索引擎蜘蛛定义的一个规则。制定好一个robots协议对于网站的收录、网站权重的提升都有很大的帮助。

Robots.txt协议的写法

Robots需要定义搜索引擎蜘蛛、是否允许其检索、特殊文件(网站程序文件、js文件、404.html等)和链接(站内页面链接、目录链接、友情链接等)的处理。合理利用”$”和“*”搭配使用,避免错误,而导致网站收录。详细的我就不说了,大家可以参考百度帮助:

Robots.txt常见错误及使用技巧等相关问题

1.robots是否应该屏蔽404页面

首先单独说说404页面有什么作用,404页面是在用户或者是搜索引擎蜘蛛进入到某个页面出现不能正常访问的时候,用404页面提示用户该页面已不存在,而这个404页面并不产生排名。那么如果让搜索引擎蜘蛛爬行404页面的话,必然会浪费爬行时间,因为我们知道蜘蛛在网站的爬行时间是有限的。从而得出结果,屏蔽404页面是必须的。

2.robots.txt是否有必要存在

A5论坛上有一个朋友曾问:“有的网站访问:域名/robots.txt提示404页面,难道robots可以不要吗?robots是否有存在的价值?”一个良好的网站,肯定需要一个站得高一点的人来掌控全局,这网站的robots文件就能够起到这个作用。可能有时候,我们的网站出现了问题,不想让搜索引擎来访问这个出现问题的页面;也可能有些页面会让让搜索引擎蜘蛛重复爬行好几次,但是却起不到任何作用。像这样的情况还有很多,在这个时候如果没有利用好robots,就会造成网站权重下降,网站排名更不用说也会下降了。

3.robots.txt错误写法举例

A. 顺序倒置
错误写成:
User-agent: *
Disallow: GoogleBot
正确的应该是:
User-agent: GoogleBot
Disallow: *
B. 把多个禁止命令放在一行中
错误写成:
Disallow: /css/ /cgi-bin/ /images/
正确的应该是:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
C. 行前有大量空格
错误写成:
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
D. 404 重定向到另外一个页面
当Robot 访问很多没有设置robots.txt 文件的站点时,会被自动404 重定向到另外
一个Html 页面。这时Robot 常常会以处理robots.txt 文件的方式处理这个Html 页
面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt 文件在
站点根目录下。
E. 采用大写。
错误写成:
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写。
正确的应该是:
user-agent:GoogleBot
disallow:
F. 语法中只有Disallow,没有Allow
错误写成:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/
G. 忘记了斜杠/
错误写成:
User-agent: Baiduspider
Disallow: css
正确的应该是:
User-agent: Baiduspider
Disallow: /css/

4. allow与disallow顺序

Allow与disallow如果顺序出现错误,会导致本来想让其被收录而不能被成功收录。比如我想让seo目录下的post被收录,被不想seo下其他文件被收录,正确的写法应该是:

Allow:/seo/post*
Disallow:/seo/ (如果写出Disallow:/seo 也是不正确的,这SEO后面的/表示目录)

5.友情链接robots防骗

有人做友情链接的时候,不会把nofollow直接写在<a>标签里,而是写在meta标签里。所以在做友情链接的时候应该注意的就是页面meta标签。常见的meta标签欺骗写法是:<META CONTENT="NOINDEX, NOFOLLOW">。这段代码的意思大概是不让搜索引擎索引和跟踪页面上的链接。所以做SEO交换链接的朋友,要注意这个问题,要不然被骗了还不知道。

6.网站url的限制抓取

#p#分页标题#e#

一般来说,网站的robots.txt文件里是应该放置一个sitemap.xml文件,这样的话有利于搜索引擎蜘蛛爬行。但是如果加入了过多的disallow限制,反而不利于爬行了,收录也不会增加。

7.robots.txt生效时间

当我们修改了robots协议以后,百度谷歌会在什么时间内生效呢?这个具体的时间也说不清楚,就我这次修改了robots的时间来看,谷歌在两天之内就生效了,而百度在5天左右的时间才反应出来效果。

总结

robots.txt是网站不可缺少的一部分,或者说网站生死权多少就掌握在robots了。利用好网站robots,不仅可以有效控制网站收录,还能增加网站权重。关于robots的常见问题

如没特殊注明,文章均为锐客网原创,转载请注明来自  https://www.wangzhan500.com/news/2625.html

标签:

推荐文章 /RELATED  NEWS