有关网络抓取技术的信息-Java 学习之路

我正在构建一个小型网络爬虫，我想知道是否有人有一些关于实际实现的有趣信息（只是抓取，没有搜索，没有排名，没有分类，只是抓取，亲吻:) .

为了记录，我已经有了O'Reilly“Spidering hacks”和No Starch Press“Webbots，蜘蛛和屏幕抓取器” . 这些书非常好，但它们往往简单易懂，并且没有详细说明缩放，存储数据，并行内容和其他更高级的主题 . 当然，我可以查看现有开源搜寻器的代码，但这将会发生在另一边（C爬虫似乎很复杂......） . 我正在寻找一些有趣的/ aditionnal信息 .

欢迎任何帮助，提前谢谢 .

1 回答

2

如果您对Web爬网程序的实现细节感兴趣，可以研究现有的开源实现 . 这是Open Source Crawlers in Java的列表 . 这些项目中的大多数都是不活跃但是Internet Archive的爬虫Heritix和Apache Nutch是成熟的活跃项目，需要学习很多东西 .

回复于 2024-04-27T05:54:23+08:00

有关网络抓取技术的信息

1 回答

相关问题