Apache Nutch不会索引整个网站，只会索引子文件夹-Java 学习之路

Apache Nutch 1.2没有索引整个网站，只有子文件夹 . 我的索引页面提供了我网站的大多数区域/子文件夹中的链接 . 例如东西，学生，研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生” . 好像好像没有遵循其他目录中的链接 .

crawl-urlfilter.txt：^ http：//www.5.my-domain.de/

URL文件夹中的seed.txt：http://www5.my-domain.de/

启动nutch（使用windows / linux）：nutch crawl“D：\ Program \ nutch-1.2 \ URLs”-dir“D：\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000

测试了深度（5-23）和topN（100-1000000）的不同变体 . 在seed.txt中提供更多链接根本没有帮助，仍然没有关注注入页面中的链接 .

有趣的是，抓取gnu.org非常有效 . 没有robots.txt或阻止我网站中使用的元标记 .

有任何想法吗？

2 回答