WordPress优化之robots.txt的写法

robots.txt 文件对于网站在搜索引擎中的展示有着至关重要的作用,robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被搜索引擎 robots 访问的部分,如果你还不太了解 robots.txt,可以先看看 robots.txt的写法 。对于 WordPress 来说,我们也有必要研究下专门针对 WordPress 的写法,通过 robots.txt 声明来保护你的诸如插件、管理目录等隐私。

先来看下较严格的一种写法:

User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=

这种写法允许所有蜘蛛访问,但会限制以“wp-”开头的目录及文件,并限制抓取.php文件、.inc文件、.js文件和.css文件,同时会限制抓取搜索结果。其中 Disallow: /wp-* 会连同附件目录(即你上传的图片、软件等)一起限制抓取,如果想让搜索引擎抓取附件中的内容,只需要将第三行的 # 号注释去掉即可。

再来看来较合理的一种写法:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.domain.com/sitemap.xml

采用这种写法允许所有搜索引擎抓取,并逐一列举需要限制的目录,同时限制抓取网站的搜索结果,最后一行代码是你网站的 Sitemap 路径,大多数搜索引擎都会识别它。

最后分享下园子自己的 robots.txt 写法:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /adlogger
Disallow: /?s=
Disallow: /page/
Disallow: /*/page/
Disallow: /category/*/page/
Disallow: /tag/*/page/
Sitemap:http://www.yzznl.cn/sitemap.xml

园子采用的写法在上面的基础上做了下改进,主要说明如下:

  • Disallow: /page/ 限制抓取 WordPress 的分页,也就是形如:http://www.yzznl.cn/page/2 之类的链接。
  • Disallow: /category/*/page/为限制抓取分类目录中的分页,如:http://www.yzznl.cn/category/google-adsense/page/2 之类的链接。
  • Disallow: /tag/*/page/ 为限制抓取标签页面中的分页,即形如:http://www.yzznl.cn/tag/soft/page/2 之类的链接。

当然,有些朋友还采用了如下的写法:

Disallow: */trackback/
Disallow: /category/*

第一行为限制抓取所有的 Trackback 内容,第二行为限制抓取所有分类列表,你可以根据需要进行适当的修改。

如果你对于你的robots.txt的写法不放心的话,建议你使用 Google管理员工具中的“工具 -> 测试 robots.txt”来对你的更改进行测试,这样可以确保你的操作正确性。

WordPress优化之robots.txt的写法》上有13条评论

发表评论