首页 文章

如何处理大规模的网络抓取请求

提问于
浏览
1

当我们的网页被许多客户刮掉时,我们的服务器承受着巨大的压力 . 有时我们的网页正在从许多不同的IP地址中搜集,这些IP地址不属于Google,Bing这样的着名蜘蛛 . 所以我们基于IP地址的防御策略是没有用的 . 我们希望我们的一些网页能够被具有适当频率的普通蜘蛛抓取,但我们反对任何可能对我们的服务器造成损害的人 . 缓存可能是一种选择 . 但是我们有很多关于seo的网址 . 例如,我们有一些具有“https://www.xxxx.com/hot-goods/mobile-phone-1.html”模式的网址 . 此页面显示有关手机的产品列表 . 单个搜索词的搜索结果有数千页 . 因此缓存的命中率可能不是很高 . 所以我只是想知道是否还有其他解决方案来减轻我们服务器的压力 .

1 回答

  • 0

    除了有一个robots.txt文件,无论如何都可能会忽略不礼貌的抓取工具,你可以提供一个sitemap.xml文件来列出你的所有页面 . 爬虫会选择那些而不是使用您网站的搜索功能,这将减少负载 . 当URL仅在少数参数中不同时,这也是避免对相同内容的多个请求的一种方式 .

    如果你无法避免它们,那就让它们的工作更简单,这样它们就不那么麻烦了 .

相关问题