首页 文章

Nutch没有抓取整个网站

提问于
浏览
1

我正在使用nutch 2.3.1

我预先形成了抓取网站的命令:

  • ./nutch inject ../urls/seed.txt

  • ./nutch generate -topN 2500

  • ./nutch fetch -all

问题是,nutch只抓取第一个URL(在seeds.txt中指定的URL) . 数据只是第一个URL /页面中的HTML .

生成命令累积的所有其他URL实际上都没有被爬网 .

我无法 grab 其他生成的网址...我也无法 grab 整个网站 . What are the options that I need to use to crawl an entire site?

有没有人有任何见解或建议?

非常感谢你的帮助

1 回答

  • 1

    如果Nutch只抓取一个指定的URL,请检查Nutch过滤器(conf / regex-urlfilter.txt) . 要抓取种子中的所有网址,regex-urlfilter.txt的内容应如下所示 .

    # accept all URLs
    +.
    

    详情请见:http://wiki.apache.org/nutch/NutchTutorial

    希望这可以帮助,

    Le Quoc Do

相关问题