首页 文章

Apache Nutch不会索引整个网站,只会索引子文件夹

提问于
浏览
1

Apache Nutch 1.2没有索引整个网站,只有子文件夹 . 我的索引页面提供了我网站的大多数区域/子文件夹中的链接 . 例如东西,学生,研究......但是nutch只抓取一个特定的文件夹 - 在这种情况下是“学生” . 好像好像没有遵循其他目录中的链接 .

crawl-urlfilter.txt:^ http://www.5.my-domain.de/

URL文件夹中的seed.txt:http://www5.my-domain.de/

启动nutch(使用windows / linux):nutch crawl“D:\ Program \ nutch-1.2 \ URLs”-dir“D:\ Program \ nutch-1.2 \ crawl”-depth 10 -topN 1000000

测试了深度(5-23)和topN(100-1000000)的不同变体 . 在seed.txt中提供更多链接根本没有帮助,仍然没有关注注入页面中的链接 .

有趣的是,抓取gnu.org非常有效 . 没有robots.txt或阻止我网站中使用的元标记 .

有任何想法吗?

2 回答

  • 2

    在尝试从索引页面抓取所有链接时,我发现nutch仅限于100个大约1000个链接 . 阻止我的设置是:

    db.max.outlinks.per.page
    

    将此设置为2000允许nutch一次性索引所有这些 .

  • 1

    检查您是否有域内链接限制(nutch-site.xml中的属性为false) . 另请查看其他属性,即每页最大内部链接数和http大小 . 有时它们会在爬行过程中产生错误的结果

    再见!

相关问题