Apache Nutch 1.2没有索引整个网站,只有子文件夹 . 我的索引页面提供了我网站的大多数区域/子文件夹中的链接 . 例如东西,学生,研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生” . 好像好像没有遵循其他目录中的链接 .
crawl-urlfilter.txt:^ http://www.5.my-domain.de/
URL文件夹中的seed.txt:http://www5.my-domain.de/
启动nutch(使用windows / linux):nutch crawl“D:\ Program \ nutch-1.2 \ URLs”-dir“D:\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000
测试了深度(5-23)和topN(100-1000000)的不同变体 . 在seed.txt中提供更多链接根本没有帮助,仍然没有关注注入页面中的链接 .
有趣的是,抓取gnu.org非常有效 . 没有robots.txt或阻止我网站中使用的元标记 .
有任何想法吗?
2 回答
在尝试从索引页面抓取所有链接时,我发现nutch仅限于100个大约1000个链接 . 阻止我的设置是:
将此设置为2000允许nutch一次性索引所有这些 .
检查您是否有域内链接限制(nutch-site.xml中的属性为false) . 另请查看其他属性,即每页最大内部链接数和http大小 . 有时它们会在爬行过程中产生错误的结果
再见!