我正在使用nutch 2.3.1
我预先形成了抓取网站的命令:
-
./nutch inject ../urls/seed.txt
-
./nutch generate -topN 2500
-
./nutch fetch -all
问题是,nutch只抓取第一个URL(在seeds.txt中指定的URL) . 数据只是第一个URL /页面中的HTML .
生成命令累积的所有其他URL实际上都没有被爬网 .
我无法 grab 其他生成的网址...我也无法 grab 整个网站 . What are the options that I need to use to crawl an entire site?
有没有人有任何见解或建议?
非常感谢你的帮助
1 回答
如果Nutch只抓取一个指定的URL,请检查Nutch过滤器(conf / regex-urlfilter.txt) . 要抓取种子中的所有网址,regex-urlfilter.txt的内容应如下所示 .
详情请见:http://wiki.apache.org/nutch/NutchTutorial
希望这可以帮助,
Le Quoc Do