首页 文章

可以防止搜索引擎蜘蛛无限爬行搜索结果上的分页链接?

提问于
浏览
4

我们的SEO团队希望向蜘蛛打开我们的主要动态搜索结果页面,并从元标记中删除'nofollow' . 通过允许robots.txt中的路径,蜘蛛目前可以访问它,但在元标记中使用'nofollow'子句可以防止蜘蛛超出第一页 .

<meta name="robots" content="index,nofollow">

我担心如果我们删除'nofollow',对我们的搜索系统的影响将是灾难性的,因为蜘蛛会开始爬过结果集中的所有页面 . 我很感激建议:

1)有没有办法从元标记中删除'nofollow',但是阻止蜘蛛仅关注页面上的某些链接?我读过关于rel =“nofollow”的不同意见,这是一个可行的选择吗?

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2)有没有办法控制蜘蛛走多远的“深度”?如果他们打几页然后停下来就不会那么糟糕 .

3)我们的搜索结果页面有标准的下一个/上一个链接,这理论上会导致蜘蛛将页面递归到无限,这对SEO的影响是什么?

我知道不同的蜘蛛行为不同,但主要关注的是大型玩家,如谷歌,雅虎,MSN .

请注意,我们的搜索结果页面和分页链接不是机器人友好的,因为它们不会被重写并且具有?name = value查询字符串,但是来自我've seen spiders no longer just abort when they see the '?因为结果页面被编入了不错的页面排名 .

3 回答

  • 1

    我已经看到谷歌索引一个日历系统,在每个页面上都有相对链接到时间结束(2038年1月19日 - 见:http://en.wikipedia.org/wiki/Year_2038_problem) . 我们没有注意到我们服务器上的负载,直到它暴露了处理2038年日期的源代码中的错误 .

    我不了解其他搜索引擎,但Google提供了许多有用的工具来控制googlebot对您的服务器基础架构的影响程度 . 见http://www.google.com/webmasters/ .

    网站站长工具中有一个选项可用于设置网站的抓取速度 .

  • 2

    说实话,你看错了 nofollow . 机会是搜索蜘蛛已经特别是谷歌,雅虎和MSN搜索nofollow页面,因为他们仍然必须点击这些页面,看看他们是否有noindex .

    真正的问题是 nofollow 实际上并不意味着不遵循,它只是意味着不要将我的声誉传递给此链接 . 因此,除非你正在积极地阻止机器人,它听起来不像你一样,在链接上更改ROBOTS元标记和机器人命令不会影响性能,因为它们已经击中了你的网站 . 要确认这一点,只需查看您的HTTP服务器日志 .

    所以我的投票是你不会看到删除机器人限制的任何问题 .

  • 2

    谷歌机器人非常聪明,不会遍历动态生成的页面的整个数据库,只要URL提示它们是动态的(即.asp或.jsp的文件扩展名等,数字ID作为查询参数) . 如果您使用重写规则来制作您的URL "friendly",那么机器人很难确定它是否是他们正在阅读的静态页面或动态生成的页面 . 有关动态URL和静态URL的详细信息,请参阅this Google article .

    您可能还需要考虑创建一个Google Sitemap,让机器人更好地了解您的网站上哪些页面可以编入索引,哪些不可以 .

相关问题