如何处理大规模的网络抓取请求-Java 学习之路

当我们的网页被许多客户刮掉时，我们的服务器承受着巨大的压力 . 有时我们的网页正在从许多不同的IP地址中搜集，这些IP地址不属于Google，Bing这样的着名蜘蛛 . 所以我们基于IP地址的防御策略是没有用的 . 我们希望我们的一些网页能够被具有适当频率的普通蜘蛛抓取，但我们反对任何可能对我们的服务器造成损害的人 . 缓存可能是一种选择 . 但是我们有很多关于seo的网址 . 例如，我们有一些具有“https://www.xxxx.com/hot-goods/mobile-phone-1.html”模式的网址 . 此页面显示有关手机的产品列表 . 单个搜索词的搜索结果有数千页 . 因此缓存的命中率可能不是很高 . 所以我只是想知道是否还有其他解决方案来减轻我们服务器的压力 .

1 回答

0

除了有一个robots.txt文件，无论如何都可能会忽略不礼貌的抓取工具，你可以提供一个sitemap.xml文件来列出你的所有页面 . 爬虫会选择那些而不是使用您网站的搜索功能，这将减少负载 . 当URL仅在少数参数中不同时，这也是避免对相同内容的多个请求的一种方式 .

如果你无法避免它们，那就让它们的工作更简单，这样它们就不那么麻烦了 .

回复于 2024-05-04T23:11:50+08:00

如何处理大规模的网络抓取请求

1 回答

相关问题