WordPress博客的robots.txt文件写法

稍微懂点SEO的站长们都知道网站的robots.txt文件,这里就不在重复说明了。其实robots.txt的用法有很多,我们可以通过这个文件来告诉搜索引擎蜘蛛那些目录可以爬,哪些不可以爬。简单点说,就是可以抓取那些内容,不可以抓取那些内容,都体现在robots.txt文件里

 

在WordPress中阻止搜索引擎蜘蛛爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名。一般使用WordPress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,大概以下几种方法。

 

最简单的开放写法:

User-agent: *

Disallow:

使用说明:允许所有搜索引擎蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。

 

最简单的严格写法:

User-agent: *

Disallow: /wp-*

#Allow: /wp-content/uploads/

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.js$

Disallow: /*.css$

Disallow: /?s=

使用说明:允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。

Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

 

最合理的写法:

User-agent: *

Disallow: /wp-admin

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-includes

Disallow: /?s=

Sitemap: http://domain/sitemap.xml

使用说明:允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。

包含sitemap.xml地址(这一项wiki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。

 

robots.txt其他写法:为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):

* Disallow: /page/ #限制抓取Wordpress分页

* Disallow: /category/*/page/* #限制抓取分类的分页

* Disallow: /tag/ #限制抓取标签页面

* Disallow: */trackback/ #限制抓取Trackback内容

* Disallow: /category/* #限制抓取所有分类列表

 

妍熙饭家庭博客的robots.txt写法:

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-includes

Disallow: /?s=

Disallow: /feed/

Disallow: /comments/feed

Disallow: /trackback

Disallow: /comments

Sitemap: http://www.yanxifan.com/sitemap.xml

Sitemap: http://www.yanxifan.com/sitemap.xml.gz

Sitemap: http://www.yanxifan.com/sitemap_baidu.xml

Sitemap: http://www.yanxifan.com/sitemap.html



转载文章请注明,转载自:妍熙饭 [http://www.yanxifan.com]

原文链接:http://www.yanxifan.com/525.html

发表评论

无觅相关文章插件,快速提升流量