首页 文章

我可以阻止蜘蛛访问具有某些GET参数的页面吗?

提问于
浏览
4

我们有一个页面,可以选择将ID作为GET参数 . 如果提供了无效的ID,该页面将抛出错误并发出通知,表明某人正在错误地访问该页面 . 为火灾添加燃料是ID可以有效一段时间,然后到期 .

我们遇到了一个问题,即搜索引擎机器人正在使用旧的过期ID访问该页面 . 这意味着每次我们获得蜘蛛时,我们都会得到一堆“误报”警报 . 我希望能有一些方法告诉机器人继续抓取页面,但不要使用GET参数 - 只需索引无参数页面 . 甚至可以使用robots.txt文件或类似文件进行远程操作吗?


Note: 我知道解决这个问题的最佳方法是改变页面's behavior and that is, in fact, happening in a few weeks. I' m,只是为此寻找解决方案 .

2 回答

  • 1

    在检查_GET的if语句中,放置此HTML:

    <meta name="robots" content="noindex, nofollow">
    <meta name="googlebot" content="noindex, nofollow">
    
  • 1

    您可以使用robots.txt中的以下内容建议蜘蛛忽略您网址的某些部分:

    User-agent: *
    Disallow: *id=
    

    编辑澄清:这将导致蜘蛛忽略GET字符串中id = blah的任何URL - 它不会神奇地"strip off" id = part . 但是,这实际上是您想要的,因为没有"?id="参数的普通URL会返回您想要编入索引的数据 .

相关问题