首页 文章

如何隐藏攻击性爬虫?

提问于
浏览
2

我打算抓取特定网站 . 我有3000个特定页面,我想每隔几个月抓一次 . 我已经创建了一个爬虫,但我不想被禁止访问该网站 .

有没有办法减少爬虫的侵略性或以某种方式隐藏它,以免被“注意”或导致我正在抓取的提供商/网站的问题?

延迟是可能的,但如果我将其设置为每页10-30秒的随机延迟,那么它将需要永远 .

制作可接受的抓取工具的任何提示或指南?

2 回答

  • 1

    另一种解决方案是使用 PROXY server provider (例如this one)并在每个X请求中轮换IP地址 . 此特定提供程序具有用于即时检索IP的API . 如果谈到PHP,cURL可以很容易地用于此目的 .

    这种技术在大多数情况下都适用,但需要更多的计划和调整 . 无论如何,你将面临一些限制 . 它可以作为时间问题以及每个时期的请求数量与时间问题几乎相同 . 或者您需要更多代理服务器来满足您的时间要求 .

    并仔细阅读供应商的TOS . 此特定提供商不允许您被Google和其他一些网站禁止 . 否则您的帐户也将被禁止 .

  • 0

    “可接受”是一个相对术语 . 一些网站所有者拥有足够的处理能力和带宽,他们不认为每小时扫描3000页是“积极的” . 一些网站所有者为带宽或处理能力而苦苦挣扎,无法跟上每天3000页的阅读量 .

    如果要读取页面并获取当前内容,则必须阅读页面 . 没有捷径可走 .

相关问题