首页 文章

防止机器人索引受限访问子域

提问于
浏览
0

我有一个子域设置,我为其他所有IP返回403 . 我还想避免网站被搜索引擎编入索引,这就是我将robots.txt添加到子域根目录的原因 .

但是,由于我在每个请求返回403该子域时,爬虫在请求robots.txt文件时也会收到403 .

根据google,如果是机器人,txt返回403,它仍会尝试抓取该网站 .

有没有办法解决?热衷于倾听您的想法 .

1 回答

  • 1

    使用robots.txt,您可以禁止抓取,而不是编制索引 .

    您可以禁止使用HTML meta - robots 或相应的HTTP标头 X-Robots-Tag Build 索引(但不能抓取) .

    所以你有三个选择:

    • Whitelist /robots.txt so that it answers with 200. 符合规定的机器人不会抓取您主机上的任何内容(robots.txt除外),但如果他们以某种方式找到它们(例如,如果从其他网站链接),他们可能会对网址进行索引 .
    User-agent: *
    Disallow: /
    
    • Add a meta-robots element to each page. 符合标准的机器人可能会抓取,但它们不会编入索引 . 但这只适用于HTML文档 .
    <meta name="robots" content="noindex" />
    
    • Send a X-Robots-Tag header for each document. 符合标准的机器人可能会抓取,但它们不会编入索引 .
    X-Robots-Tag: noindex
    

    (每个请求发送403本身可能是一个强烈的信号,没有什么有趣的东西可以看;但是当然要做什么取决于机器人 . )

相关问题