我 们 的 服 务

欢迎访问天津君远科技发展有限公司唯一官方网站,三站一体响应式网站设计,微信公众号二次开发,网站SEO百度首页/次页优化排名服务。

如何正确书写robots.txt

发布时间:2012-12-5  所属分类:网站优化

  robots.txt是搜索引擎爬虫访问网站时第一个要访问的文件,而不是网站的首页,为什么呢,因为robots.txt文件中告诉爬虫网站中的那些文件是不允许访问和收录的,这对保护网站的隐私和SEO搜索引擎起着巨大的作用,作用不可小觑。

  当蜘蛛访问一个网站时,它首先要做的是查看站点的根目录下是不是存在robots.txt,如果存在,那么蜘蛛就会按照里面规定的内容来访问和收录页面,如果不存在,那么蜘蛛就会访问该站点所有蜘蛛可以爬到的页面,包含重复和不重复的,百度也建议,如果网站中有不希望被搜索引擎看到和收录的内容时,才需要创建robots.txt文件,否则就不需要创建这个文件。

  robots.txt主要包含两点规则:

  1.User-Agent: 定义搜索引擎的类型

  如果只让百度收录,就写Baiduspider,google是Googlebot,如果想让所有的搜索引擎收录,那么就写*,还有注意User-agent区分大小写。

  2.Disallow: 要拦截的网页

  例如:

  Disallow:/admin/ 这里是禁止爬虫抓取admin目录下面的目录。

  Disallow: /adc/*.htm 这里是禁止访问abc目录下所有扩展名是.htm的文件。

  Disallow: /*?* 禁止访问网站中所有的动态页面(这个经常用到,尤其是已经生成了全站静态的站点)

  Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片

  3.robots.txt文件字符编码

  robots.txt使用的字符编码并没有强制性规定,因为里面不能包含中文,所以什么格式都是没有问题的,ANSI和UTF-8两个都行。

  4.robots.txt验证

  这里给大家两个参照地址:

  1)http://tool.motoricerca.info/robots-checker.phtml

  由意大利非营利性网站优化和搜索引擎公司Motoricerca创建,但是要注意,验证的时候要去掉中文注释,否则会报错。

  2)http://www.google.cn/webmasters/

  这就是大名鼎鼎的Google网站管理员工具,这个支持中文注释,可以放心验证。

  登陆后在控制台,点击需要验证的网站进行验证即可。

Tag标签:

相关文章:

上一篇:什么是SEO

下一篇:网站建设多少钱

返回顶部
返回顶部