robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
对于大多数wordpress博主来说很少注意robots.txt,认为他无关紧要,其实不然,robots.txt在wordpress优化,网站seo方面有着很重要的作用。
robots.txt不光可以保护网站隐私链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的robots.txt规则。
最简单的robots.txt规则:
User-agent: *Disallow:
这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。
安全性的robots.txt书写规则:
User-agent: *Disallow: /cgi-bin/Disallow: /wp-Allow: /wp-content/uploads/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /?s=
有利于seo的robots.txt书写规则:(以本站为例)
User-agent: *Disallow: /cgi-bin/Disallow: /wp-Disallow: */rss.xmlDisallow: /author/Disallow: /page/Disallow: /tag/Disallow: */trackback/Disallow: */feed/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /*?*Disallow: /?s=Sitemap: http://www.pakelab.com/sitemap.xml
先说所我为什么这么设置。google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是http://www.pakelab.com/xxxx/rss.xml的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow: */rss.xml ,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。
如何为wordpress创建有利于seo的robots.txt文件-百度经验
再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择性的设置。
如何为wordpress创建有利于seo的robots.txt文件-百度经验
feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。
如何为wordpress创建有利于seo的robots.txt文件-百度经验
wordpress官方robots.txt书写规则(国外)
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# digg mirror
User-agent: duggmirror
Disallow: /
如何为wordpress创建有利于seo的robots.txt文件-百度经验 Sitemap: http://www.example.com/sitemap.xml
对于自己网站情况还不太清楚的博主,我推荐用这种,没有风险,安全,有利于seo。具体内容请参考:wordpress codex
在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。