我最近在我的服务器上遇到了很多CPU峰值,不知何故我认为这不是真正的流量,或者它的某些部分并不真实 . 所以我想现在只允许谷歌机器人,MSN和雅虎 . 如果以下robots.txt文件符合我的要求,请指导我 .
User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot
User-agent: Mediapartners-Google*
User-agent: Googlebot-Image
User-agent: Yahoo-MMCrawler
Disallow:
User-agent: *
Disallow: /
谢谢 .
2 回答
第一个
Disallow:
应该是:实际上,如果您愿意,允许所有这些用户代理为您的网站编制索引 .
你的robots.txt似乎有效 .
记录中是allowed to have several User-agent lines .
Disallow:
允许抓取所有内容 .以
User-agent: *
开头的记录仅适用于与之前记录不匹配的机器人 .Disallow: /
禁止抓取任何内容 .但请注意:只有漂亮的机器人遵循robots.txt中的规则 - 并且很可能好的机器人不会超过常见的爬行频率 . 所以要么你需要为你的表现而努力,要么不那么好的机器人应该受到责备 .