经常在Google网站管理员里见到robots.txt,却始终不知道作用是什么,今天无意看到一篇文章,才发现robots.txt的作用竟是如此之大,事关WordPress的安全和性能。下面我把我学习的知识整理了一下,方便自己和大家学习。
什么是robots.txt
简单来说就是搜索引擎爬虫访问你的网站时,先寻找有没有robots.txt。你可以在robots.txt里告诉爬虫哪些文件不允许访问,哪些文件允许访问。
书写原则
必须放在网站根目录 ,字母全部小写。
User-agent: *
Disallow:
Allow:
User-agent::*代表所有搜索引擎的爬虫,如果只想特定某个搜索引擎,替换*就可以了。
Disallow:设置不允许访问的文件目录。
Allow:设置允许访问的文件目录。
如何创建
自己创建一个文本,按照上面的格式书写上传,如果你装有Google XML Sitemaps插件,就会自动在根目录生成一个robots.txt文件。
应用
User-agent: * Disallow: / |
禁止所有爬虫访问 |
User-agent: * Disallow: |
允许所有爬虫访问 |
User-agent: Baiduspider Disallow: / |
禁止百度爬虫访问 |
User-agent: Googlebot Disallow: / |
禁止Google爬虫访问 |
User-agent: sogou spider Disallow: / |
禁止搜狗爬虫访问 |
User-agent: * Disallow: /cgi-bin/ Disallow: /Page/ |
禁止访问某个目录 |
User-agent: Baiduspider |
允许百度抓取gif格式的图片,其它几种格式不允许。 |
测试
创建好robots文件后,大家可以在Google的管理员工具里测试一下,就可以知道是否正常工作。
转载请注明文章转载自:80博客 [http://www.bk80.com]
本文链接地址:详解robots.txt文件
我没放。。。
[回复]
程序自带有就用。没有就不用。哈·
[回复]
关键是不知道那些目录能禁止啊
[回复]
80博客 回复:
1月 29th, 2011 at 13:22
我正在测试,随后就会写出来应该禁止哪些!
[回复]
额,我都没去管它来着。。
[回复]
这个真的很不错呀
[回复]
过来看看了 向你学习
我刚开始做网络这方面的
多多指导啊!
[回复]
学习了,不错的知识。。以后常来光顾~!
[回复]
这东东实用
不得不顶一下了
[回复]
我还没用这个呢
[回复]
就是对搜索的一个指南针,呵呵
[回复]
恩,确实很实用的!
[回复]
这个都有用!
[回复]
恩,确实很实用!
[回复]
不错,不过关于WP的robots有个插件都很好,设置很详细
[回复]
这个东西很重要,做不好,收录就出现问题,我的就是出现问题了,呵呵
[回复]
边走边看边支持博主
[回复]
我默认的,什么也没改动。
[回复]
踩踩!!!!!!!!!
[回复]
不是太懂这个,随便抄了个,呵呵
[回复]
看看
学学习
[回复]
这个知识,太给力啦。
[回复]
我的也是自己设置的。
[回复]
好东西,学校啦,我的还没装MAP插件,等等装上
[回复]
恩恩,学习了
[回复]
这个真的很不错呀
[回复]
原来是这样呀,博主不说还真试过。谢谢
[回复]
robots编写很主要,感谢分享
[回复]
解释的很清楚
[回复]
天气好时去见你,天气不好时,带上伞去见你。
[回复]