首页 文章

有关网络抓取技术的信息

提问于
浏览
2

我正在构建一个小型网络爬虫,我想知道是否有人有一些关于实际实现的有趣信息(只是抓取,没有搜索,没有排名,没有分类,只是抓取,亲吻:) .

为了记录,我已经有了O'Reilly“Spidering hacks”和No Starch Press“Webbots,蜘蛛和屏幕抓取器” . 这些书非常好,但它们往往简单易懂,并且没有详细说明缩放,存储数据,并行内容和其他更高级的主题 . 当然,我可以查看现有开源搜寻器的代码,但这将会发生在另一边(C爬虫似乎很复杂......) . 我正在寻找一些有趣的/ aditionnal信息 .

欢迎任何帮助,提前谢谢 .

1 回答

  • 2

    如果您对Web爬网程序的实现细节感兴趣,可以研究现有的开源实现 . 这是Open Source Crawlers in Java的列表 . 这些项目中的大多数都是不活跃但是Internet Archive的爬虫Heritix和Apache Nutch是成熟的活跃项目,需要学习很多东西 .

相关问题