我对搜索引擎优化以及网络蜘蛛的工作方式了解不多,所以请原谅我的无知 . 我正在创建一个站点(使用ASP.NET-MVC),该站点具有显示从数据库检索的信息的区域 . 数据对用户来说是唯一的,因此没有真正的服务器端输出缓存 . 但是,由于数据可能包含用户可能不希望从搜索引擎结果中显示的内容,因此我想阻止任何蜘蛛访问搜索结果页面 . 我是否应该采取任何特殊措施来确保搜索结果目录不被抓取?此外,蜘蛛是否会抓取动态生成的页面,并且任何阻止某些目录搜索的操作都会使我的搜索引擎排名陷入困境?
编辑:我应该补充一点,我正在阅读 robots.txt
协议,但它依赖于网络爬虫的合作 . 但是,我还想阻止任何将忽略robots.txt文件的数据挖掘用户 .
我感谢任何帮助!
5 回答
您可以通过在服务器上实施限制来防止某些恶意客户端过多地攻击您的服务器 . “抱歉,您的IP在过去几分钟内向此服务器发出了太多请求 . 请稍后再试 . ”但实际上,假设您无法阻止真正的恶意用户绕过您放置的任何限制机制 .
鉴于此,这是更重要的问题:
您是否对所提供的信息感到满意?您的用户对此感到满意吗?
如果这些问题的答案为否,那么您应该确保只有授权用户才能看到敏感信息 . 如果信息不是特别敏感,但您不希望客户端抓取它,那么限制可能是一个不错的选择 . 你甚至可能会被爬行吗?如果没有,robots.txt应该没问题 .
看起来你有2个问题 .
首先是对搜索结果中出现的某些数据的担忧 . 第二个关于恶意或不道德的用户收集用户相关数据 .
第一个问题将通过适当使用robots.txt文件来涵盖,因为所有大型搜索引擎都会尊重此问题 .
第二个问题似乎与数据隐私有关 . 立即想到的第一个问题是:如果有人可能不想显示的用户信息,为什么要提供它?
这些数据的隐私政策是什么?
用户是否有能力控制哪些信息可用?
如果信息可能是敏感的,但对系统很重要,可能会受到限制,因此仅供登录用户使用?
看看Robots exclusion standard . 它's a text file that you put on your site that tells a bot what it can and can'吨指数 . 您还需要解决机器人不遵守robots.txt文件时会发生什么 .
提到的robots.txt文件 . 如果这还不够,那么你可以:
阻止未知的使用者 - 难以维护,便于机器人伪造浏览器(虽然大多数合法的机器人不会)
阻止未知的IP地址 - 对公共站点无用
需要登录
限制用户连接 - 调整棘手,您仍将披露信息 .
也许通过使用组合 . 无论哪种方式,这是一种权衡,如果公众可以浏览它,机器人也可以 . 确保您不会阻止和疏远人们试图阻止机器人 .
一些选择:
强制用户登录以查看内容
在内容之前添加CAPTCHA页面
在Flash中嵌入内容
使用JavaScript动态加载