当前位置:园子博客 » Wordpress » WordPress优化之robots.txt的写法

WordPress优化之robots.txt的写法

7月 18th, 2009 | Filed under Wordpress | 共有8,348次浏览

robots.txt 文件对于网站在搜索引擎中的展示有着至关重要的作用,robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被搜索引擎 robots 访问的部分,如果你还不太了解 robots.txt,可以先看看 robots.txt的写法 。对于 wordpress 来说,我们也有必要研究下专门针对 WordPress 的写法,通过 robots.txt 声明来保护你的诸如插件、管理目录等隐私。

先来看下较严格的一种写法:

1
2
3
4
5
6
7
8
User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=

这种写法允许所有蜘蛛访问,但会限制以“wp-”开头的目录及文件,并限制抓取.php文件、.inc文件、.js文件和.css文件,同时会限制抓取搜索结果。其中 Disallow: /wp-* 会连同附件目录(即你上传的图片、软件等)一起限制抓取,如果想让搜索引擎抓取附件中的内容,只需要将第三行的 # 号注释去掉即可。

再来看来较合理的一种写法:

1
2
3
4
5
6
7
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.domain.com/sitemap.xml

采用这种写法允许所有搜索引擎抓取,并逐一列举需要限制的目录,同时限制抓取网站的搜索结果,最后一行代码是你网站的 Sitemap 路径,大多数搜索引擎都会识别它。

最后分享下园子自己的 robots.txt 写法:

1
2
3
4
5
6
7
8
9
10
11
12
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /adlogger
Disallow: /?s=
Disallow: /page/
Disallow: /*/page/
Disallow: /category/*/page/
Disallow: /tag/*/page/
Sitemap:http://www.yzznl.cn/sitemap.xml

园子采用的写法在上面的基础上做了下改进,主要说明如下:

  • Disallow: /page/ 限制抓取 WordPress 的分页,也就是形如:http://www.yzznl.cn/page/2 之类的链接。
  • Disallow: /category/*/page/为限制抓取分类目录中的分页,如:http://www.yzznl.cn/category/google-AdSense/page/2 之类的链接。
  • Disallow: /tag/*/page/ 为限制抓取标签页面中的分页,即形如:http://www.yzznl.cn/tag/soft/page/2 之类的链接。

当然,有些朋友还采用了如下的写法:

1
2
Disallow: */trackback/
Disallow: /category/*

第一行为限制抓取所有的 Trackback 内容,第二行为限制抓取所有分类列表,你可以根据需要进行适当的修改。

如果你对于你的robots.txt的写法不放心的话,建议你使用 Google管理员工具中的“工具 -> 测试 robots.txt”来对你的更改进行测试,这样可以确保你的操作正确性。

  1. 王光卫中文博客
    10月 4th, 201018:47

    这个写法过于复杂吧

  2. 稠粥稀粥
    8月 19th, 201010:37

    博主觉得装了Google XML Sitemaps插件或者百度的搜索优化插件,还有必要设置robots.txt 文件吗? 😉

    • 园子
      8月 19th, 201016:36

      @稠粥稀粥
      有没必要就看你的需求了
      假如你有些路径不想让被访问到
      设置下robots.txt 还是有必要的。

  3. lealost
    6月 2nd, 201016:26

    这样的话会让搜索引擎惩罚的… 🙁

  4. 邓玮
    1月 7th, 201013:32

    很好很强大 ,3Q歪瑞嘛! PS,你写的很严谨,我是直接 dis了个管理目录,别的全部GOAHEAD

  5. 聪壹艮
    1月 6th, 201021:59

    一头雾水… 学起来真累啊 😮

  6. BLOG EARN CASH
    8月 17th, 200917:21

    差不多,其实这个规则 也无多大意思,只要博客安装了SEO插件,基本可以了。

  7. 小Bee
    8月 10th, 200919:08

    嗯..我也是这么的设置。

  8. 蛋王
    7月 19th, 200914:36

    学习了,立刻应用去,哈哈!

  9. 老孙
    7月 19th, 200910:25

    Google管理员工具 还是不错的。

  10. 会计导航
    7月 19th, 200910:07

    好像是蛮复杂的。

  11. huaimao
    7月 19th, 200900:42

    偶学习了!偶顺其自然吧!

  12. iseeyou
    7月 18th, 200920:35

    //禁止掉动态网页抓取
    Disallow: /*?*

    http://www.iseeyou.cn/robots.txt

您必须在 登录 后才能发布评论.