防止机器人索引受限访问子域

提问于 2024-05-04T02:28:34+08:00

浏览次

0

我有一个子域设置，我为其他所有IP返回403 . 我还想避免网站被搜索引擎编入索引，这就是我将robots.txt添加到子域根目录的原因 .

但是，由于我在每个请求返回403该子域时，爬虫在请求robots.txt文件时也会收到403 .

根据google，如果是机器人，txt返回403，它仍会尝试抓取该网站 .

有没有办法解决？热衷于倾听您的想法 .

1 回答

1
使用robots.txt，您可以禁止抓取，而不是编制索引 .

您可以禁止使用HTML meta - robots 或相应的HTTP标头 X-Robots-Tag Build 索引（但不能抓取） .

所以你有三个选择：
- Whitelist /robots.txt so that it answers with 200. 符合规定的机器人不会抓取您主机上的任何内容（robots.txt除外），但如果他们以某种方式找到它们（例如，如果从其他网站链接），他们可能会对网址进行索引 .
```
User-agent: *
Disallow: /
```
- Add a meta-robots element to each page. 符合标准的机器人可能会抓取，但它们不会编入索引 . 但这只适用于HTML文档 .
```
<meta name="robots" content="noindex" />
```
- Send a X-Robots-Tag header for each document. 符合标准的机器人可能会抓取，但它们不会编入索引 .
```
X-Robots-Tag: noindex
```
（每个请求发送403本身可能是一个强烈的信号，没有什么有趣的东西可以看;但是当然要做什么取决于机器人 . ）
回复于 2024-05-04T02:28:34+08:00

相关问题