我有一个子域设置,我为其他所有IP返回403 . 我还想避免网站被搜索引擎编入索引,这就是我将robots.txt添加到子域根目录的原因 .
但是,由于我在每个请求返回403该子域时,爬虫在请求robots.txt文件时也会收到403 .
根据google,如果是机器人,txt返回403,它仍会尝试抓取该网站 .
有没有办法解决?热衷于倾听您的想法 .
使用robots.txt,您可以禁止抓取,而不是编制索引 .
您可以禁止使用HTML meta - robots 或相应的HTTP标头 X-Robots-Tag Build 索引(但不能抓取) .
meta
robots
X-Robots-Tag
所以你有三个选择:
User-agent: * Disallow: /
<meta name="robots" content="noindex" />
X-Robots-Tag: noindex
(每个请求发送403本身可能是一个强烈的信号,没有什么有趣的东西可以看;但是当然要做什么取决于机器人 . )
1 回答
使用robots.txt,您可以禁止抓取,而不是编制索引 .
您可以禁止使用HTML
meta
-robots
或相应的HTTP标头X-Robots-Tag
Build 索引(但不能抓取) .所以你有三个选择:
(每个请求发送403本身可能是一个强烈的信号,没有什么有趣的东西可以看;但是当然要做什么取决于机器人 . )