Nutch没有抓取整个网站-Java 学习之路

我正在使用nutch 2.3.1

我预先形成了抓取网站的命令：

问题是，nutch只抓取第一个URL（在seeds.txt中指定的URL） . 数据只是第一个URL /页面中的HTML .

生成命令累积的所有其他URL实际上都没有被爬网 .

我无法 grab 其他生成的网址...我也无法 grab 整个网站 . What are the options that I need to use to crawl an entire site?

有没有人有任何见解或建议？

非常感谢你的帮助

1 回答